美团基础研发 大模型算法工程师实习面经
一面
- 自我介绍
- 项目+论文
- 为啥项目中使用Ptuning?
- 说一下Ptuning的原理
- 如何关注训练过程中的指标? 训练步数如何确定?
- RLHF的整个流程详细
- llama factory代码看过吗?
- DPO了解吗?
- 算法题 二分,medium, 旋转数组的最小数字
二面
二面面试官问了很多开放性问题,就是丢给你一个一个问题/实际的步骤,问你怎么解决,怎么考虑,而不是问某某东西的原理
- 自我介绍
- 项目
- 训练大模型的数据如何弄的?
- RLHF的三个流程中你觉得哪个应该是最重要的?为什么?
- 为啥RLHF中要用PPO?和其他RL算法的区别?
- 为什么需要Rewar model?
- Reward model 如何训练?Reward model 你觉得训练到什么程度可以?
- Reward model不准确怎么办?
- 如何提升RLHF的效率?你认为关键在哪里?
- DPO的原理?
- Rewar model和训练的LLM模型用同一个基座模型可能有什么作用?
- Reward有多个目标可以怎么做?
- 算法题 爬楼梯 面试官会引导逐步改善最开始写的解优化算法到最优空间复杂度