记录一下秋招:8.13滴滴一面挂,llab大模型岗。1.自我介绍,为什么想做大模型方向?2.拷打项目和实习3.reward bench上的reward model分哪几类?reward model如何训练的,训练目标是什么?4.dpo训练的损失函数和训练目标,dpo如何改进5.指令跟随能力的评估集有什么,如何评估的?6.gsm8k和math评估集有什么区别?7.mbpp和hella swag评估集有什么区别?8.阿尔法狗强化学习策略是什么?9.提升推理能力和指令跟随能力哪个更难,为什么,提升指令跟随能力的优化方式和其他的比如推理有什么不一样的地方10.dpo训完了一般输出长度会变化吗?如何解决这个问题11.注意力机制为什么除以根号dk,为什么不是dk12.transformer里边norm的位置在哪里,norm如何计算的13.大模型训练过程学习率一般如何变化的,退火阶段学习率如何变化的代码:1.写了个注意力层2.手撕,一个数组,输出这个数组每个位置之外的其他元素的乘机,不能用除法,要求尽量减少时间复杂度,然后要求仅用一个数组存储太难了,10分钟后就挂了其他公司:米哈游-简历挂蔚来-简历挂文远知行-简历挂鹰角网络-简历挂服了,投了3次蔚来都给我挂了#滴滴##滴滴提前批##大模型面试##米哈游##蔚来#