关注
当作面试一样回答一下这些问题:
1. 子序列两层for循环,if s[i] == s[j]:
dp[i][j] = dp[i - 1][j - 1] + 1
else :
dp[i][j] = max(dp[i - 1][j], dp[i][j - 1])
2. xx
3.xx
4. lora, p tuning v1 v2, adapter tuning, prefix tuning.
5. 绝对,相对位置编码, Rope旋转位置编码
6. 从输入开始,一个是绝对位置编码一个是Rope编码。经过embedding层后,transformer decoder直接输入注意力层,而llama则是先经过norm,一个是Post norm一个是Pre norm,同时norm这里的区别前者为layer norm后者为Root mean square norm,对于注意力层,llama是GQA而transformer decoder是MHA,再经过FFN层,FFN层的激活函数transformer deocder是Relu,而llama没记错的话是SwiGelu,(就想到这些,不知道还有没有不同)
7. 不知怎么答
8. SGD , w = w - lr * gradient, Adam引入了一阶动量与二阶动量(方差)
9. 交叉熵损失
10. 假设dB参数的大模型,模型与梯度半精度fp16保存,一个参数两个字节,则占用2d G + 2d G = 4d G显存,优化器如果用adam,fp32保存模型权重备份,动量与方差,则占用3 * 4 * d G = 12d G显存,对一个dB参数的大模型做full training显存占用估计在16dG。(deepspedd, 模型并行,张量并行之类的可能会继续问了)
欢迎补充点评
查看原帖
3 评论
相关推荐
01-02 18:35
青岛大学 C++ 点赞 评论 收藏
分享
牛客热帖
正在热议
# 2025,我想...... #
10324次浏览 143人参与
# 今年形式下双非本找得到工作吗 #
68933次浏览 628人参与
# 夸一夸2024年的自己 #
10496次浏览 119人参与
# 我的简历长这样 #
2069345次浏览 28073人参与
# 职场高情商速成班 #
644次浏览 19人参与
# 当你面对裁员会如何? #
64030次浏览 496人参与
# 如何一边实习一边秋招 #
1090424次浏览 13393人参与
# 投递实习岗位前的准备 #
1283475次浏览 19304人参与
# 签约有哪些注意事项 #
13997次浏览 164人参与
# 秋招前后对offer的期望对比 #
194250次浏览 1457人参与
# 滴!实习打卡 #
528423次浏览 5843人参与
# 如果再来一次,你还会选择这个工作吗? #
371973次浏览 2335人参与
# 简历被挂麻了,求建议 #
2767238次浏览 35118人参与
# 上班苦还是上学苦呢? #
187998次浏览 1125人参与
# 机械制造薪资爆料 #
1139134次浏览 9364人参与
# 工作中,你有没有遇到非常爱骂人的领导? #
8230次浏览 79人参与
# 在找工作求抱抱 #
965632次浏览 9583人参与
# 无实习如何秋招上岸 #
851125次浏览 9575人参与
# 实习,投递多份简历没人回复怎么办 #
2642782次浏览 36204人参与
# 如果可以选,你最想去哪家公司 #
1333742次浏览 16649人参与