3.7 小米算法实习生(大模型)一面(50min)

3.7 小米算法实习生(大模型)一面(50min)
无脸男
自我介绍
项目主要想完成的目标
论文有哪些idea
介绍PPO算法
为什么PPO算法要用优势函数来评估,为什么不能直接用reward反馈(拷打到死)
GRPO算法
优势函数是什么的优势
GAE广义优势的缺点
介绍Qlora,对什么进行4bit量化,lora初始矩阵是什么,lora矩阵的量化
撕题:数组中找出第k大的数

无反问
全部评论
佬是项目里就有rl吗
点赞 回复 分享
发布于 03-13 13:52 天津

相关推荐

评论
1
6
分享

创作者周榜

更多
牛客网
牛客企业服务