情况:面完一面过了一周,HR直接发了OFFER,没有二面,已ocPPO与GRPO的区别,分别介绍他们的优势与缺点DPO对齐训练的曲线是怎么样的,正例的概率会提升嘛,参考这个知乎回答:Deepseek-R1里面不仅推理能力很好,而且文采能力也很好,这个是个开放问题,如何让模型的文采能力也很好呢?介绍你在实习做的事情,有遇到什么case嘛,怎么解决的deepseed介绍deepspeed的每一段的通信比较,zero3分别是0和2的多少倍,1.5倍DPO如何解决回答过长的问题,除了正则开放问题:为什么现在大家都在关注于大模型的推理能力reasoning对于一个base model如何增强大模型的re...