DQN的计算问题

求问大家为什么dqn的计算要用下一步的q value的max值呢，用mean不可以么

全部评论

推荐最新楼层

改名求offer

哈尔滨工业大学算法工程师

最优贝尔曼方程

点赞回复分享

发布于 2017-10-16 22:55

zssasa

中国科学院算法工程师

因为更新往reward最大的action走

点赞回复分享

发布于 2017-10-16 20:48

文行知Cer

北京大学算法工程师

q learning是off policy的，它每次实验选择下一个a是由behavior policy决定的。这里的behavior policy采用了选择q最大的a。如果是sarsa这种on policy的，它会按照之前学习的target policy去选a，一般是epsilon-greedy。以上是我个人的理解。

点赞回复分享

发布于 2017-10-17 08:55

11-24 20:23

华中科技大学嵌入式软件工程师

基础阶段

这个阶段是为了好好打基础，有下面几个目的熟练使用劳动工具 C C++ Makefile搞明白芯片是如何通过各种芯片完成各种操作的了解一个程序是怎么被执行的需要对mcu soc有一定宏观的理解一：熟悉劳动工具这部分主要就是C语言的学习，如果学有余力可以学学C++，并且在学习过程中一定要刷刷算法题来巩固对编程语言的使用。C的学习推荐几本书：《C专家编程》《C缺陷与陷阱》《C和指针》, 视频的话B站上有不少,应该大差不差,主要是要看得懂语法,并且可以找一些题目来做巩固.C++我看过很多书 C++Primer(习题全部都做了) 还有侯捷的好几本,不过还是比较推荐看看 effective modern...

嵌入式学习路线

点赞评论收藏

昨天 17:31

已编辑

北京邮电大学 Java

秋招结束，比较满意的收官

基本上大厂都有面，不过有很多倒在了技术终面美团两次二面挂京东一面Hr面挂，这是最难绷的蚂蚁三面挂阿里国际Hr面到现在也没消息，也直接默认挂了字节6个部门11面挂，千万别捞我，不然骂死你阿里云两次二面挂快手三面挂高德二面挂腾讯二面挂 其实无所谓了，在腾讯实习过，对腾讯无感了得物有了淘天意向后没面荣耀同上TPLINK同上银行方面，做了农行，邮储，中行，工行，招行笔试，都收到了面试，但那个时候只考虑去互联网了，就都没去意向：淘天 挺核心的业务，本来开得不是很高，跟hr a了下，结果超出预期，非常满意的薪资 base北京滴滴 给了ssp 也非常有诚意 和淘天差不多，但淘天有每月3200的补贴和挺多的签...

秋招前后对offer的期望对比秋招你被哪家公司挂了?

点赞评论收藏

10-09 00:50

已编辑

长江大学算法工程师

全村唯一的指望了，怎么就偏偏是你。

成也华子，败也华子，如今竟然只能指望着华子了，害。投的是计算产品线，因为研究方向是ai-infra，只有这个最对口了。因为祖上传下来的xcpc金所以免机考+一次面试，实际在南研所只面了两轮。---------分割线---------但是我不想去，因为逆反。华子是家里唯一承认的私企。去这里等价于又一次屈服于他们。（想啥呢，人家还没给你发offer呢）

不期而遇的夏天：1.同学你面试评价不错，概率很大，请耐心等待；2.你的排名比较靠前，不要担心，耐心等待；3.问题不大，正在审批，不要着急签其他公司，等等我们！4.预计9月中下旬，安心过节；5.下周会有结果，请耐心等待下；6.可能国庆节前后，一有结果我马上通知你；7.预计10月中旬，再坚持一下；8.正在走流程，就这两天了；9.同学，结果我也不知道，你如果查到了也告诉我一声；10.同学你出线不明朗，建议签其他公司保底！11.同学你找了哪些公司，我也在找工作。

点赞评论收藏