滴滴大模型面经
本人只做点业务数据sft, 做的更加偏向于粗糙业务,直接被拷打麻了,望佬看到可以给我指点一下
1. 现在有一个非常完备的sft指令集,你只能选择1w条,你如何选择数据来使模型的能力更加提升+完备?
2.我们知道sft的时候尽量不要注入知识给模型,因为只希望sft可以提升模型的指令遵循的能力,注入知识的话,可能会导致后面使用的时候模型容易出现幻觉,那我们怎么确保自己选择的这1w条数据没注入知识给模型呢?
3.7b和13b模型微调同一批数据,学习率哪个大?
4. Pretrain/sft/ppo学习率怎么变换?
5. 学习率和batch大小变化一致吗?
6. 做表征学习的时候,模型坍塌的原因?
7. 为什么做rm的时候,用不同的小模型大模型来采样生成后训练出来的rm会比以前那种方法奏效?这很反直觉,因为按照直觉来说的话,这种方式可能会让rm偏向某个权威的模型
8. 现在有很多种方法,有做完pt直接做rlhf的,也有按班就步的pt-sft-rlhf的,还有直接不做rlhf的,你觉得为什么这些方法都有效,你觉得是什么原因造成的?
#滴滴##秋招##面经# #算法# #八股#
1. 现在有一个非常完备的sft指令集,你只能选择1w条,你如何选择数据来使模型的能力更加提升+完备?
2.我们知道sft的时候尽量不要注入知识给模型,因为只希望sft可以提升模型的指令遵循的能力,注入知识的话,可能会导致后面使用的时候模型容易出现幻觉,那我们怎么确保自己选择的这1w条数据没注入知识给模型呢?
3.7b和13b模型微调同一批数据,学习率哪个大?
4. Pretrain/sft/ppo学习率怎么变换?
5. 学习率和batch大小变化一致吗?
6. 做表征学习的时候,模型坍塌的原因?
7. 为什么做rm的时候,用不同的小模型大模型来采样生成后训练出来的rm会比以前那种方法奏效?这很反直觉,因为按照直觉来说的话,这种方式可能会让rm偏向某个权威的模型
8. 现在有很多种方法,有做完pt直接做rlhf的,也有按班就步的pt-sft-rlhf的,还有直接不做rlhf的,你觉得为什么这些方法都有效,你觉得是什么原因造成的?
#滴滴##秋招##面经# #算法# #八股#
全部评论
搞这么细啊。有些答案可以去llama3.1的技术报告参考,其他的等大佬回答
通常lr缩放倍数为batch size倍数的开方。例如batch size增大4倍,学习率对应扩大2倍即可。
蹲蹲答案
佬这是几面啊,滴滴是连着面吗🙌
对TEMU有想法的戳我哈
我们这大模型搜推方向 来试试嘛
蹲蹲答案
相关推荐
查看10道真题和解析
点赞 评论 收藏
分享