cs285:Supervised learning of behaviors
Introduction
cs285是伯克利深度强化学习课程。准备追了
Imitation learning
看起来很美好,关键不work。因为
数据的分布和策略的分布不同,监督学习不太能适应distribution shift的情况。那怎么办呢?
要让机器学习错误并且纠正的过程。
有没有更加省力的方法?为何不让data的分布和策略的分布相同呢?于是来了DAgger算法:
但这个算法需要人力的参与有点讨厌,而且有可能学不到expert behavior。
Causal confusion
有一种有趣的情况是给的学习信息越多,反而学习效果越差:
比如左边,信息给的太完整,导致模型学到的概念是下面指示灯亮就踩刹车,但其实是因为踩了刹车,灯才亮的。右边信息给的不完整反而能让模型慢慢地明白踩了是因为看到前面有人才会才刹车的。
这个叫causal confusion
Multimodal behavior
主要就是下面三个解决方法
然后第三个方法看上去就好像是离散的mcmc。
Cost function
右边那个cost function其实很烂。
为什么那么烂?
因为没有一些优良的收敛特性。。
和T成quadratic的关系,不太行。所以一般采用maximum reward的方式。
好的cost function应该是linearly的。
下面是证明:
Summary
再次复习一遍强化学习。
算法小屋 文章被收录于专栏
不定期分享各类算法以及面经。同时也正在学习相关分布式技术。欢迎一起交流。