海康威视算法电话一面

又是一个上来疯狂问强化学习的面试官🤣
首先对着我的知乎专栏《强化学习攻略》疯狂发问:
1. PPO相对于TRPO的改进
2. 什么情况下使用重要性采样?
3. 直观上来说,AC方法是on-policy还是off-policy?既然是on-policy的方法,A3C没有使用重要性采样的情况下,直接取之前策略的数据会不会有问题?
4. DP方法和TD方法区别在哪里?面试官说这个涉及到本质问题。
5. 为什么要采用优势函数?
还有一些RL的问题,没答上来,记不太清了

然后随便聊了一下项目,还说了说在日本的交换经历。面试官说在成都有个分院,多智能体RL的项目就是在德阳落地的,说得我两眼放光。
感觉面试官很随和,许愿二面啊~是真的想回成都哈哈
#面经##校招##海康威视##算法工程师#
全部评论
投递的研究院的AI岗么
1
送花
回复 分享
发布于 2020-09-07 17:48
楼主你好,请问你是什么岗位?开发的话,是Java方向还是C++方向?或者其他语言方向
点赞
送花
回复 分享
发布于 2020-09-04 16:35
秋招专场
校招火热招聘中
官网直投
AC是off-policy吧,更新策略使用的数据仍然不是被更新策略产生的呀。只是策略之间的差异没有在更新方程中体现出来,所以没有用重要性采样吧
点赞
送花
回复 分享
发布于 2020-09-05 10:34
楼主 海康现在招强化学习方向的岗位吗
点赞
送花
回复 分享
发布于 2021-10-03 00:49

相关推荐

1 7 评论
分享
牛客网
牛客企业服务