强化学习工程师面试经验
1.介绍项目
2.用的什么算法(PPO)
3.强化学习与监督学习的一个区别(这里没答好)
4.状态空间动作空间奖励函数的设计
5.对抗决策为什么没用多智能体强化学习 6.时序差分是什么?贝尔曼方程是什么? 7.面试官介绍公司,问家在哪,为什么选择西安。 8.HR问是否有其他offer,开了多少工资,为什么选择考国防科大
1.介绍项目
2.用的什么算法(PPO)
3.强化学习与监督学习的一个区别(这里没答好)
4.状态空间动作空间奖励函数的设计
5.对抗决策为什么没用多智能体强化学习 6.时序差分是什么?贝尔曼方程是什么? 7.面试官介绍公司,问家在哪,为什么选择西安。 8.HR问是否有其他offer,开了多少工资,为什么选择考国防科大
相关推荐