2017-10-16 20:16 已编辑帝都小航算法工程师

关注

DQN的计算问题

求问大家为什么dqn的计算要用下一步的q value的max值呢，用mean不可以么

全部评论

推荐最新楼层

哈尔滨工业大学算法工程师

最优贝尔曼方程

点赞回复分享

发布于 2017-10-16 22:55

中国科学院算法工程师

因为更新往reward最大的action走

点赞回复分享

发布于 2017-10-16 20:48

北京大学算法工程师

q learning是off policy的，它每次实验选择下一个a是由behavior policy决定的。这里的behavior policy采用了选择q最大的a。如果是sarsa这种on policy的，它会按照之前学习的target policy去选a，一般是epsilon-greedy。以上是我个人的理解。

点赞回复分享

发布于 2017-10-17 08:55

昨天 18:40

武汉工程大学前端工程师

职场新人禁忌学生思维

摆脱学生思维，职场新人要注意这些刚踏入职场，很多小伙伴可能还带着学生时代的习惯，但有些行为在职场上可不太合适。今天我就来分享一些经验，帮助大家更好地适应职场生活。1. 说话要简洁，去掉语气词在职场上，说话和打字时尽量去掉“啊”、“啦”这些语气词。比如，“就是这样啊，当然啦，可以啊”可以改成“没错，就是这样，当然，可以。”这样会显得你更专业和干练。2. 动作要慢而稳无论是转头、抬手还是起身，都要慢一点，但要精准。这会让人觉得你沉稳有力。控制好自己的表情，不要在脸上表现出过多的情绪，比如快乐、愤怒或悲伤。3. 步伐坚定，姿态自信走路时可以大步流星，但身体不要前倾，也不要低头。手部动作尽量出现在上半...

点赞评论收藏

分享

昨天 13:15

华南师范大学产品运营

在得物上班的体验

首先，工作时间是朝九晚五，周末双休. 每个月的工资大概在9000块左右，外加一些行政补贴，感觉还算不错。公司福利上，除了五险一金，还有补充公积金。餐补、车补、油补、话补这些，节日还有购物卡。办公环境也挺温馨的，灵活的办公模式让我觉得很自在。公司里还有健身房和瑜伽室，工作之余可以放松一下。而且，偶尔还有旅游津贴，机票和酒店的补贴。

得物app公司福利 402人发布

点赞评论收藏

分享

11-11 11:16

山东石油化工学院自动化

现在的这些企业都那么离谱啊

这工作时间，还有个人生活吗

Tudorlin：双休，稳了

点赞评论收藏

分享

11-19 17:10

武汉大学前端开发其它

每天上班郁闷，后悔拒绝掉的以前offer

每天上班郁闷，后悔拒绝掉的以前offer，超级后悔进去这家公司，每天都不开心，之前的那家看到还有招，但是人事没回复，怎么办，哎。选错公司了

如果再来一次，你还会选择这个工作吗？

点赞评论收藏

分享

点赞收藏评论

全站热榜

正在热议

# 25届秋招总结 #

248312次浏览 2014人参与

# 学历or实习经历，哪个更重要 #

41129次浏览 300人参与

# 北方华创开奖 #

22844次浏览 259人参与

# 地方国企笔面经互助 #

2559次浏览 6人参与

# 你最想要的公司福利是？ #

40080次浏览 126人参与

# 选完offer后，你后悔学本专业吗 #

10515次浏览 76人参与

# 面试题刺客退退退 #

137201次浏览 2092人参与

# 国企/银行/研究所公司爆料 #

89748次浏览 412人参与

# 应届生被毁约被毁意向了怎么办 #

27181次浏览 238人参与

# 一觉醒来，我觉醒了超级打工人系统 #

2913次浏览 35人参与

# 机械应届生薪资要多少才合适？ #

12398次浏览 60人参与

# 查收我的offer竞争力报告 #

16845次浏览 228人参与

# 校招入职后的感受 #

156973次浏览 1961人参与

# 你觉得第一学历对求职有影响吗？ #

14897次浏览 121人参与

# 没有实习经历，还有机会进大厂吗 #

805178次浏览 13814人参与

# 我的工作日记 #

21216次浏览 270人参与

# 不给转正的实习，你还去吗 #

1517113次浏览 16968人参与

# 寒假躺平还是提前实习 #

58459次浏览 438人参与

# 总结:哪家公司面试体验感最差 #

25772次浏览 129人参与

# 秋招OC许愿 #

226715次浏览 1872人参与

# 如何写一份好简历 #

602286次浏览 8444人参与

牛客网
牛客企业服务