字节二面

1 dpo ppo区别(ppo不会,讲dpo)
2 dpo训练遇见什么问题了,如何解决,扯了半天但是感觉也没说对(其实不会,一直扯对比学习)
3 最新的sota的embedding模型什么结构,什么技术(没关注过)
4 decoder only和encoder only的embedding模型分别有什么优点,谁更好(不会,只能说出个因果注意力和双向注意力,然后说可能encoder更好一点,然后被更深入问,然后烂了)
5 强化学习advantage讲一下(这啥啊,完全没听说过)
6 rag怎么优化的
7 传统rlhf怎么做的
8 gpt2和llama3在transformer层的区别(我就只说了norm和激活函数)
9 拷打实习

手撕 mha
全部评论
约三面了
点赞 回复 分享
发布于 08-13 16:47 上海
大佬太强了
点赞 回复 分享
发布于 09-27 20:13 湖北

相关推荐

阿里系夸克 边缘业务大模型实习 450元/天,月薪接近一万 硕士
点赞 评论 收藏
分享
3 17 评论
分享
牛客网
牛客企业服务