又是一个上来疯狂问强化学习的面试官🤣 首先对着我的知乎专栏《强化学习攻略》疯狂发问: 1. PPO相对于TRPO的改进 2. 什么情况下使用重要性采样? 3. 直观上来说,AC方法是on-policy还是off-policy?既然是on-policy的方法,A3C没有使用重要性采样的情况下,直接取之前策略的数据会不会有问题? 4. DP方法和TD方法区别在哪里?面试官说这个涉及到本质问题。 5. 为什么要采用优势函数? 还有一些RL的问题,没答上来,记不太清了 然后随便聊了一下项目,还说了说在日本的交换经历。面试官说在成都有个分院,...