滴滴大模型面经

本人只做点业务数据sft, 做的更加偏向于粗糙业务,直接被拷打麻了,望佬看到可以给我指点一下

1. 现在有一个非常完备的sft指令集,你只能选择1w条,你如何选择数据来使模型的能力更加提升+完备?
2.我们知道sft的时候尽量不要注入知识给模型,因为只希望sft可以提升模型的指令遵循的能力,注入知识的话,可能会导致后面使用的时候模型容易出现幻觉,那我们怎么确保自己选择的这1w条数据没注入知识给模型呢?
3.7b和13b模型微调同一批数据,学习率哪个大?
4. Pretrain/sft/ppo学习率怎么变换?
5. 学习率和batch大小变化一致吗?
6. 做表征学习的时候,模型坍塌的原因?
7. 为什么做rm的时候,用不同的小模型大模型来采样生成后训练出来的rm会比以前那种方法奏效?这很反直觉,因为按照直觉来说的话,这种方式可能会让rm偏向某个权威的模型
8. 现在有很多种方法,有做完pt直接做rlhf的,也有按班就步的pt-sft-rlhf的,还有直接不做rlhf的,你觉得为什么这些方法都有效,你觉得是什么原因造成的?

#滴滴##秋招##面经#  #算法#  #八股#
全部评论
搞这么细啊。有些答案可以去llama3.1的技术报告参考,其他的等大佬回答
4 回复 分享
发布于 09-14 15:37 陕西
通常lr缩放倍数为batch size倍数的开方。例如batch size增大4倍,学习率对应扩大2倍即可。
2 回复 分享
发布于 09-14 20:40 辽宁
北京农商银行
校招火热招聘中
官网直投
蹲蹲答案
1 回复 分享
发布于 09-14 18:14 美国
佬这是几面啊,滴滴是连着面吗🙌
1 回复 分享
发布于 09-15 01:15 广东

相关推荐

10 22 评论
分享
牛客网
牛客企业服务