淘天一面 暑期
简历挂了三个部门(阿里和团子,太狠了),自己在牛客找人,又给捞起来了。
面试官人不错,乐乐呵呵的。
先自我介绍了一下,自我介绍的面试官真不多。
稍微问了下项目,有没有遇到什么问题等等。
DPO loss 公式?手写。这里忘写出sigmiod,然后ref model的位置记混了,也给过了。
logits = (policy_good_logps - reference_good_logps) - (policy_bad_logps - reference_bad_logps) loss = -F.logsigmoid(beta * logits).mean()
DPO 和 PPO 的区别?
T1:
找到有序数组中的最左边的target 的index,二分。[1,2,2,3,4] 这样,result_index=1.
T2:
nums 所有的子集。
回溯即可。
都不用运行,但是代码留备份了。(QwQ)
概率题:
一个筛子,出现全部的六个面,需要投掷几次?
反问:
推荐系统已经很发达了,现在还能干啥?(技术红利巴巴,总会有技术红利的巴巴。)
推荐大模型是啥?(淘宝公众号有,自己看。)大概就是输入用户的文本描述prompt,输出item文本。
有什么建议?打了个哈哈,问下实习多久,说挺好的。没啥建议。
我进去后干啥?AIGC相关,淘宝的图像视频生成,怎么吸引顾客。
问了有几面,说两轮技术,一轮hr。(最好是,别整三轮技术了真的。)
最后许愿字节oc!