2020-05-06 02:13 已编辑腾讯_数据平台部_算法工程师

关注

cs285：Supervised learning of behaviors

Introduction

cs285是伯克利深度强化学习课程。准备追了

Imitation learning

图片说明
看起来很美好，关键不work。因为

数据的分布和策略的分布不同，监督学习不太能适应distribution shift的情况。那怎么办呢？
要让机器学习错误并且纠正的过程。

有没有更加省力的方法？为何不让data的分布和策略的分布相同呢？于是来了DAgger算法：
图片说明
但这个算法需要人力的参与有点讨厌，而且有可能学不到expert behavior。

Causal confusion

图片说明
有一种有趣的情况是给的学习信息越多，反而学习效果越差：

比如左边，信息给的太完整，导致模型学到的概念是下面指示灯亮就踩刹车，但其实是因为踩了刹车，灯才亮的。右边信息给的不完整反而能让模型慢慢地明白踩了是因为看到前面有人才会才刹车的。
这个叫causal confusion

Multimodal behavior

主要就是下面三个解决方法
图片说明
然后第三个方法看上去就好像是离散的mcmc。

Cost function

图片说明
右边那个cost function其实很烂。
为什么那么烂？

因为没有一些优良的收敛特性。。 $图片说明$
和T成quadratic的关系，不太行。所以一般采用maximum reward的方式。
好的cost function应该是linearly的。
下面是证明：

Summary

再次复习一遍强化学习。

算法小屋文章被收录于专栏

不定期分享各类算法以及面经。同时也正在学习相关分布式技术。欢迎一起交流。

全部评论

推荐最新楼层

11-22 16:39

已编辑

华中科技大学光通信工程师

秋招就到这儿吧。

秋招真的是一场持久战，每一天都有不同的心情。。。 随着华为的审批保温，差不多整个秋招也就结束了。 BG：双九，保研，本硕都是电子信息类（光电方向），研究方向是光通信这一块。 秋招一共投递了17家公司，我的想法很明确，最后的最后的最后是希望能够做解决方案一类，也就是技术+销售结合的事儿。但这样的岗要求很高，基本很少校招，都是社招或内部研发输出一线这样的模式。所以我投递的岗包括技术岗和非技术岗。 收到面试邀请9家，获得offer（含保温）9家，已拿到8offer，预计9offer。面试通过率100%。所有的面经都在主页了，欢迎各位大佬指正批评。🙇 5月准备华为客经实习开始陆...

zachsun：华科硕士给13级？有点逆天了吧

25届秋招总结

点赞评论收藏

分享

11-24 10:46

山东大学嵌入式软件工程师

刷到羊毛月，我想说：我们并不欠优绩主义什么

昨天刷到了羊毛月的视频，很绝啊，没想到这人非要插这么一嘴是图啥，嫌自己过得太好了？然后思考了一下，其实他和李佳琦有很多相似之处，甚至可以说他们算是一类人：努力过，并且努力有结果，有巨大的成功和回报，然后将这些成功归功于优绩主义并贯穿言行。这里说的优绩主义并不是说成绩好，而是 Meritocracy -- 一种社会理念和管理理念，主张社会与经济的奖赏应当依据个人的才能、努力和成就来决定。他们往往认为在机会平等的条件下，人们通过公平竞争，成绩优异者应该获得更多的奖励和认可。优绩主义的核心思想是，能够者应该居上，即最有能力和努力的人应该获得更高的社会地位和经济回报。但起码此时此刻，作为非既得利益者，...

给一个offer求了：他也还好吧，跟大部分人比他算是很幸运的了，感觉他三句话离不开北大，但是如果他出生在距离北京八中50公里以外的河北省，他的人生会截然不同诶。京津冀总给人一种特别割裂的感觉。

牛客创作赏金赛 0offer是寒冬太冷还是我太菜

点赞评论收藏

分享

11-04 17:09

门头沟学院算法工程师

回头整理发现挂这么多

威猛的小饼干正在背八股：挂到根本不想整理

点赞评论收藏

分享

11-22 15:50

浙江大学数据分析师

SHEIN数据分析师真实日常

早上10点前打卡，然后我会先看看日程，了解今天的会议安排和自由时间。我的工作就是处理产品和运营的各种数据需求。为了管理这些需求，我还做了个排期文档，挺有用的，既能管理业务方的预期，也能记录自己做过的事情，方便复盘。午休时间一般是12点到1点半，有三个食堂，选择还不错。不过中午人多得很，吃久了也容易腻，所以我常常点外卖。吃完饭后，大家都会睡一下，很多人还买了折叠躺椅，公司还专门设了收纳柜。下午会议比较多，会议室紧张，要么提前预定，要么临时捡漏。晚上一般能在10点前下班，除非有紧急需求或者会议。虽然听起来晚上加班有点痛苦，但我也习惯了。好在8点以后下班有50块的晚餐补贴，加班也按时长算工资，还是挺...

SHEIN公司氛围 172人发布

点赞评论收藏

分享

点赞收藏评论

全站热榜

正在热议

# 25届秋招总结 #

329362次浏览 3113人参与

# 上班苦还是上学苦呢？ #

72881次浏览 654人参与

# 百度开奖 #

184491次浏览 1156人参与

# 地方国企笔面经互助 #

4528次浏览 12人参与

# 如果有时光机，你最想去到哪个年纪？ #

21864次浏览 407人参与

# 选完offer后，你后悔学本专业吗 #

21961次浏览 159人参与

# 阿里云管培生offer #

37105次浏览 422人参与

# 我的实习求职记录 #

6071005次浏览 83546人参与

# 如何一边实习一边秋招 #

996859次浏览 12664人参与

# 找工作时遇到的神仙HR #

553506次浏览 3801人参与

# 入职第一天，你准备什么时候下班 #

21644次浏览 144人参与

# 招聘要求与实际实习内容不符怎么办 #

10790次浏览 277人参与

# bilibili求职进展汇总 #

33267次浏览 357人参与

214823次浏览 2535人参与

# 学历or实习经历，哪个更重要 #

53971次浏览 423人参与

# 你今年的平均薪资是多少？ #

70899次浏览 345人参与

# 实习工作，你找得还顺利吗？ #

247808次浏览 2909人参与

# 通信硬件薪资爆料 #

609188次浏览 5193人参与

# 海康威视求职进展汇总 #

400802次浏览 3408人参与

# 携程求职进展汇总 #

135842次浏览 931人参与

# 正在实习的你，几点下班 #

53396次浏览 396人参与

# 工作两年想退休了 #

53129次浏览 672人参与

牛客网
牛客企业服务