强化学习工程师面试经验

1.介绍项目

2.用的什么算法(PPO)

3.强化学习与监督学习的一个区别(这里没答好)

4.状态空间动作空间奖励函数的设计

5.对抗决策为什么没用多智能体强化学习 6.时序差分是什么?贝尔曼方程是什么? 7.面试官介绍公司,问家在哪,为什么选择西安。 8.HR问是否有其他offer,开了多少工资,为什么选择考国防科大

全部评论

相关推荐

不愿透露姓名的神秘牛友
09-20 17:47
oppo 算法 29.5×15+1.2×12=456.9 硕士其他
点赞 评论 收藏
分享
点赞 收藏 评论
分享
牛客网
牛客企业服务