关注
当作面试一样回答一下这些问题:
1. 子序列两层for循环,if s[i] == s[j]:
dp[i][j] = dp[i - 1][j - 1] + 1
else :
dp[i][j] = max(dp[i - 1][j], dp[i][j - 1])
2. xx
3.xx
4. lora, p tuning v1 v2, adapter tuning, prefix tuning.
5. 绝对,相对位置编码, Rope旋转位置编码
6. 从输入开始,一个是绝对位置编码一个是Rope编码。经过embedding层后,transformer decoder直接输入注意力层,而llama则是先经过norm,一个是Post norm一个是Pre norm,同时norm这里的区别前者为layer norm后者为Root mean square norm,对于注意力层,llama是GQA而transformer decoder是MHA,再经过FFN层,FFN层的激活函数transformer deocder是Relu,而llama没记错的话是SwiGelu,(就想到这些,不知道还有没有不同)
7. 不知怎么答
8. SGD , w = w - lr * gradient, Adam引入了一阶动量与二阶动量(方差)
9. 交叉熵损失
10. 假设dB参数的大模型,模型与梯度半精度fp16保存,一个参数两个字节,则占用2d G + 2d G = 4d G显存,优化器如果用adam,fp32保存模型权重备份,动量与方差,则占用3 * 4 * d G = 12d G显存,对一个dB参数的大模型做full training显存占用估计在16dG。(deepspedd, 模型并行,张量并行之类的可能会继续问了)
欢迎补充点评
查看原帖
3 评论
相关推荐
牛客热帖
正在热议
# 晒一晒我的offer #
9712874次浏览 104864人参与
# 应届生被毁约被毁意向了怎么办 #
24764次浏览 233人参与
# 北方华创开奖 #
21418次浏览 244人参与
# 地方国企笔面经互助 #
2125次浏览 6人参与
# 查收我的offer竞争力报告 #
13963次浏览 197人参与
# 机械应届生薪资要多少才合适? #
11924次浏览 58人参与
# 我的工作日记 #
20542次浏览 269人参与
# 寒假躺平还是提前实习 #
57210次浏览 419人参与
# 总结:哪家公司面试体验感最差 #
23882次浏览 116人参与
# 实习,投递多份简历没人回复怎么办 #
2383987次浏览 34208人参与
# 公司情报交流地 #
31206次浏览 220人参与
# 00后45度躺现状 #
35713次浏览 305人参与
# 秋招OC许愿 #
224608次浏览 1856人参与
# 不给转正的实习,你还去吗 #
1513108次浏览 16940人参与
# 没有实习经历,还有机会进大厂吗 #
803258次浏览 13775人参与
# 秋招拿一个offer可以躺平吗 #
103555次浏览 805人参与
# 机械人,签完三方你在忙什么? #
23259次浏览 119人参与
# 选完offer后,你后悔学本专业吗 #
7320次浏览 47人参与
# 来聊聊机械薪资天花板是哪家 #
63593次浏览 431人参与
# 0offer是寒冬太冷还是我太菜 #
880212次浏览 7869人参与
# 大家都开始春招面试了吗 #
409849次浏览 5222人参与