2017-10-16 20:16 已编辑帝都小航算法工程师

关注

DQN的计算问题

求问大家为什么dqn的计算要用下一步的q value的max值呢，用mean不可以么

全部评论

推荐最新楼层

哈尔滨工业大学算法工程师

最优贝尔曼方程

点赞回复分享

发布于 2017-10-16 22:55

中国科学院算法工程师

因为更新往reward最大的action走

点赞回复分享

发布于 2017-10-16 20:48

北京大学算法工程师

q learning是off policy的，它每次实验选择下一个a是由behavior policy决定的。这里的behavior policy采用了选择q最大的a。如果是sarsa这种on policy的，它会按照之前学习的target policy去选a，一般是epsilon-greedy。以上是我个人的理解。

点赞回复分享

发布于 2017-10-17 08:55

11-20 12:15

安徽艺术学院市场推广

上班通勤一小时的人你们怎么做到的！！

入职了一个稍微大一点的公司，对比薪资福利自己认为都还可以。拿到offer时候，心里一直坚定自己一定可以的，不就是远了点～但是！今天早上六点的闹钟，我真的想哭，天还没亮全，冬天还冷，怪不得之前人事问我有没有搬家的想法，在那一刻，我真的不想去了

超级offer大王：如果你够穷，就不会觉得了

有条件还是搬吧

点赞评论收藏

分享

11-14 15:03

西安电子科技大学 C++

关于荣耀分组

只能说。。。只要不是安卓就行，松了口气

一名愚蠢的人类：多少games小鬼留下了羡慕的泪水

投递荣耀等公司10个岗位

点赞评论收藏

分享

11-21 17:33

已编辑

Kim Anh Academy of Beauty (Westminster) 深度学习

bro帮忙选一下

投票

满帮 35w快手和途虎都四五十

吃不饱的肱二头肌很想退休：tnnd 我以为选妹子呢，亏我兴高采烈的冲进来😠

投递快手等公司10个岗位

点赞评论收藏

分享

11-21 18:05

北京化工大学生物制药岗

到底是谁点的猪蹄呀

中午吃饭，饭桌上吃猪蹄，用筷子小心的扯，却不小心把猪蹄弹飞了，飞到了甲方老板的碗旁边，差点把甲方老板的碗弹下去。

bruceling：原谅我笑出了声

职场中你干过哪些“蠢”事

点赞评论收藏

分享

点赞收藏评论

全站热榜

正在热议

# 25届秋招总结 #

331649次浏览 3135人参与

# 上班苦还是上学苦呢？ #

73582次浏览 656人参与

# 阿里云管培生offer #

37334次浏览 424人参与

# 地方国企笔面经互助 #

4574次浏览 12人参与

# 如果有时光机，你最想去到哪个年纪？ #

22064次浏览 415人参与

# 选完offer后，你后悔学本专业吗 #

22072次浏览 159人参与

# 百度开奖 #

185978次浏览 1166人参与

# 我的实习求职记录 #

6072893次浏览 83555人参与

# 如何一边实习一边秋招 #

997311次浏览 12669人参与

# 找工作时遇到的神仙HR #

553792次浏览 3803人参与

# 入职第一天，你准备什么时候下班 #

21680次浏览 144人参与

# 招聘要求与实际实习内容不符怎么办 #

10826次浏览 277人参与

# bilibili求职进展汇总 #

33356次浏览 357人参与

214943次浏览 2535人参与

# 学历or实习经历，哪个更重要 #

54120次浏览 424人参与

# 你今年的平均薪资是多少？ #

71098次浏览 345人参与

# 实习工作，你找得还顺利吗？ #

248055次浏览 2913人参与

# 通信硬件薪资爆料 #

609771次浏览 5198人参与

# 海康威视求职进展汇总 #

400966次浏览 3408人参与

# 携程求职进展汇总 #

135944次浏览 932人参与

# 正在实习的你，几点下班 #

53455次浏览 396人参与

# 工作两年想退休了 #

53155次浏览 673人参与

牛客网
牛客企业服务