淘天一面 暑期

简历挂了三个部门(阿里和团子,太狠了),自己在牛客找人,又给捞起来了。

面试官人不错,乐乐呵呵的。

先自我介绍了一下,自我介绍的面试官真不多。

稍微问了下项目,有没有遇到什么问题等等。

DPO loss 公式?手写。这里忘写出sigmiod,然后ref model的位置记混了,也给过了。

logits = (policy_good_logps - reference_good_logps) - (policy_bad_logps - reference_bad_logps)
loss = -F.logsigmoid(beta * logits).mean()

DPO 和 PPO 的区别?

T1:

找到有序数组中的最左边的target 的index,二分。[1,2,2,3,4] 这样,result_index=1.

T2:

nums 所有的子集。

回溯即可。

都不用运行,但是代码留备份了。(QwQ)

概率题:

一个筛子,出现全部的六个面,需要投掷几次?

反问:

推荐系统已经很发达了,现在还能干啥?(技术红利巴巴,总会有技术红利的巴巴。)

推荐大模型是啥?(淘宝公众号有,自己看。)大概就是输入用户的文本描述prompt,输出item文本。

有什么建议?打了个哈哈,问下实习多久,说挺好的。没啥建议。

我进去后干啥?AIGC相关,淘宝的图像视频生成,怎么吸引顾客。

问了有几面,说两轮技术,一轮hr。(最好是,别整三轮技术了真的。)

最后许愿字节oc!

全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客企业服务