字节二面
1 dpo ppo区别(ppo不会,讲dpo)
2 dpo训练遇见什么问题了,如何解决,扯了半天但是感觉也没说对(其实不会,一直扯对比学习)
3 最新的sota的embedding模型什么结构,什么技术(没关注过)
4 decoder only和encoder only的embedding模型分别有什么优点,谁更好(不会,只能说出个因果注意力和双向注意力,然后说可能encoder更好一点,然后被更深入问,然后烂了)
5 强化学习advantage讲一下(这啥啊,完全没听说过)
6 rag怎么优化的
7 传统rlhf怎么做的
8 gpt2和llama3在transformer层的区别(我就只说了norm和激活函数)
9 拷打实习
手撕 mha
2 dpo训练遇见什么问题了,如何解决,扯了半天但是感觉也没说对(其实不会,一直扯对比学习)
3 最新的sota的embedding模型什么结构,什么技术(没关注过)
4 decoder only和encoder only的embedding模型分别有什么优点,谁更好(不会,只能说出个因果注意力和双向注意力,然后说可能encoder更好一点,然后被更深入问,然后烂了)
5 强化学习advantage讲一下(这啥啊,完全没听说过)
6 rag怎么优化的
7 传统rlhf怎么做的
8 gpt2和llama3在transformer层的区别(我就只说了norm和激活函数)
9 拷打实习
手撕 mha
全部评论
约三面了
大佬太强了
相关推荐
11-02 00:08
中国地质大学(武汉) Java 点赞 评论 收藏
分享