简历挂了三个部门(阿里和团子,太狠了),自己在牛客找人,又给捞起来了。面试官人不错,乐乐呵呵的。先自我介绍了一下,自我介绍的面试官真不多。稍微问了下项目,有没有遇到什么问题等等。DPO loss 公式?手写。这里忘写出sigmiod,然后ref model的位置记混了,也给过了。 logits = (policy_good_logps - reference_good_logps) - (policy_bad_logps - reference_bad_logps) loss = -F.logsigmoid(beta * logits).mean() DPO 和 PPO 的区别?T1:找到有序...