百度-文心一言-一面面经
情况:面完一面过了一周,HR直接发了OFFER,没有二面,已oc
- PPO与GRPO的区别,分别介绍他们的优势与缺点
- DPO对齐训练的曲线是怎么样的,正例的概率会提升嘛,参考这个知乎回答:
- Deepseek-R1里面不仅推理能力很好,而且文采能力也很好,这个是个开放问题,如何让模型的文采能力也很好呢?
- 介绍你在实习做的事情,有遇到什么case嘛,怎么解决的
- deepseed介绍
- deepspeed的每一段的通信比较,zero3分别是0和2的多少倍,1.5倍
- DPO如何解决回答过长的问题,除了正则
- 开放问题:为什么现在大家都在关注于大模型的推理能力reasoning
- 对于一个base model如何增强大模型的reasoning能力
- DPO除了长度问题还有其他的问题嘛,与问题2对应,reward hacking?都没有奖励模型了
- 说一下simpo的原理,它是怎么解决dpo微调序列过长的问题的
反问:
1、到了那边具体做什么呢能发论文嘛?
主要是研究怎么提升基座模型的能力,用RL或者其他方法提升基本能力,论文不带着发但是能自己发。
2、有多少资源可以用?
大概有几百张A100资源,用了实习生举例子,这个实习生训练用了48卡A100训练。
#强化学习##算法##文心一言##百度##技术岗笔试题求解#