DQN的计算问题

求问大家为什么dqn的计算要用下一步的q value的max值呢,用mean不可以么
全部评论
最优贝尔曼方程
点赞 回复 分享
发布于 2017-10-16 22:55
因为更新往reward最大的action走
点赞 回复 分享
发布于 2017-10-16 20:48
q learning是off policy的,它每次实验选择下一个a是由behavior policy决定的。这里的behavior policy采用了选择q最大的a。如果是sarsa这种on policy的,它会按照之前学习的target policy去选a,一般是epsilon-greedy。 以上是我个人的理解。
点赞 回复 分享
发布于 2017-10-17 08:55

相关推荐

今天 00:49
已编辑
门头沟学院 Java
点赞 评论 收藏
分享
神哥了不得:你简历字体有点不太协调呀,下面的字实在太小了呀,而且项目也不太行,建议换几个高质量的项目,面试会多很多
点赞 评论 收藏
分享
02-14 15:34
门头沟学院 Java
Java抽象带篮子:专业技能怎么写可以看看我发的帖子
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务