网易互娱强化学习一面(只有一位面试官小哥哥): (1)自我介绍 (2)聊项目:项目背景、技术细节 (3)专业问题: 1. PPO更新式子和解释 2. GAIL算法介绍 3. 强化学习中的探索方法(有没有听过novelty,听过,但是没仔细看过相关paper) 4. 有没有用过一些分布式的RL框架 (平时用的不多,我就转移话题提到了A3C和A2C) 5. 介绍A2C和A3C的区别 6. 介绍重要性采样,以及Q-learning为什么不需要 7. 一些RL在游戏方面的应用有了解嘛(了解的不多,所以就又问了AlphaGO) 8. Al...