DQN的计算问题

求问大家为什么dqn的计算要用下一步的q value的max值呢,用mean不可以么
全部评论
最优贝尔曼方程
点赞 回复 分享
发布于 2017-10-16 22:55
因为更新往reward最大的action走
点赞 回复 分享
发布于 2017-10-16 20:48
q learning是off policy的,它每次实验选择下一个a是由behavior policy决定的。这里的behavior policy采用了选择q最大的a。如果是sarsa这种on policy的,它会按照之前学习的target policy去选a,一般是epsilon-greedy。 以上是我个人的理解。
点赞 回复 分享
发布于 2017-10-17 08:55

相关推荐

10-09 00:50
已编辑
长江大学 算法工程师
不期而遇的夏天:1.同学你面试评价不错,概率很大,请耐心等待;2.你的排名比较靠前,不要担心,耐心等待;3.问题不大,正在审批,不要着急签其他公司,等等我们!4.预计9月中下旬,安心过节;5.下周会有结果,请耐心等待下;6.可能国庆节前后,一有结果我马上通知你;7.预计10月中旬,再坚持一下;8.正在走流程,就这两天了;9.同学,结果我也不知道,你如果查到了也告诉我一声;10.同学你出线不明朗,建议签其他公司保底!11.同学你找了哪些公司,我也在找工作。
点赞 评论 收藏
分享
评论
点赞
收藏
分享
牛客网
牛客企业服务