第一个帖子给第一次面试,攒攒人品。课题:强化学习和模仿学习怎么在任务里结合的,为什么要用这两个。模仿学习收集数据怎么收集。强化学习奖励函数的设置,以及需要多少次迭代。末端力如果有噪声怎么办。实体的强化学习效果怎么样。对大模型有没有了解。对Serl有没有了解。竞赛:在竞赛中承担什么样的角色做了什么工作。八股:model-base和model-free的区别,马尔可夫性解释,为什么最优值函数就是最优策略,策略迭代和值迭代区别。代码:合并区间。感受:虽然迟到了但是面试官非常温柔,而且问的也很对口,就是我很容易说别的废话呜呜呜,第一次面试函数名用了拼音,写的时候感觉就不太好但是突然脑子里没有英文名。hr建议:多跟进最新进展成果,不要专注于两三年前的东西。如果有会大模型的也建议投一下,面试官说那边比较缺人。##小米机器人##小米求职进展汇总##面试##小米##强化学习##模仿学习##大模型##牛客创作赏金赛##实习#