08-23 20:48
北京大学 自然语言处理 找不到实习的大摆子:意难平啊家人们,这个 cos 和欧式距离一个是角度一个长度怎么可能同步。。。当时没太明白。
loss 确实是高频考点。
机器学习那些比较基础的八股还是一定要会,虽然一般可能用不到。
查看14道真题和解析
0 点赞 评论 收藏
分享
查看9道真题和解析
0 点赞 评论 收藏
分享
08-20 12:32
北京大学 自然语言处理 0 点赞 评论 收藏
分享
08-14 19:02
北京大学 自然语言处理 RZ_Q:绝对位置编码长度外推会出现训练没见过的位置编码,相对编码很关注相对距离,长度外推的时候,推出去的token和length内的token还是有相对位置见过的?(感觉好像也没细想过这个问题,一般只知道绝对位置不好外推😂
查看14道真题和解析
0 点赞 评论 收藏
分享
08-07 16:21
北京大学 自然语言处理 Gold知难而进:当作面试一样回答一下这些问题:
1. 子序列两层for循环,if s[i] == s[j]:
dp[i][j] = dp[i - 1][j - 1] + 1
else :
dp[i][j] = max(dp[i - 1][j], dp[i][j - 1])
2. xx
3.xx
4. lora, p tuning v1 v2, adapter tuning, prefix tuning.
5. 绝对,相对位置编码, Rope旋转位置编码
6. 从输入开始,一个是绝对位置编码一个是Rope编码。经过embedding层后,transformer decoder直接输入注意力层,而llama则是先经过norm,一个是Post norm一个是Pre norm,同时norm这里的区别前者为layer norm后者为Root mean square norm,对于注意力层,llama是GQA而transformer decoder是MHA,再经过FFN层,FFN层的激活函数transformer deocder是Relu,而llama没记错的话是SwiGelu,(就想到这些,不知道还有没有不同)
7. 不知怎么答
8. SGD , w = w - lr * gradient, Adam引入了一阶动量与二阶动量(方差)
9. 交叉熵损失
10. 假设dB参数的大模型,模型与梯度半精度fp16保存,一个参数两个字节,则占用2d G + 2d G = 4d G显存,优化器如果用adam,fp32保存模型权重备份,动量与方差,则占用3 * 4 * d G = 12d G显存,对一个dB参数的大模型做full training显存占用估计在16dG。(deepspedd, 模型并行,张量并行之类的可能会继续问了)
欢迎补充点评
查看8道真题和解析
0 点赞 评论 收藏
分享
icecens:请问,用户增长这种边缘指的是用户增长组都是边缘组嘛?我有个这种组的实习机会不知道要不要去
查看5道真题和解析
0 点赞 评论 收藏
分享
0 点赞 评论 收藏
分享
关注他的用户也关注了: