📍面试公司:美团👜面试岗位:大模型春招📖面试问题:问了 PPO 重要性采样系数怎么才能为1?调节批量,学习率,超参数啥的 不懂,策略收敛最优解不就为一了吗grpo 的 GAE 怎么算,和批量大小有没有关系?为啥没有要PPO的v函数?离轨策略和在线策略的关系? 冷启动 + grpo 怎么做的?仿真寻优(实习项目)的 PPO 和 openai 的PPO有啥不同? 项目的p(s'|s,a)=1,状态转移矩阵非常稀疏手撕链表 切断+翻转+链表合并Input: 1->2->3->4->5->6->7Output: 1->7->2->6->...