《强化学习》 基本概念和交叉熵方法

基本概念

监督学习与强化学习

监督学习 强化学习
通过学习近似参考答案 通过试验和错误来学习最优策略
需要正确答案 ***的动作需要反馈
模型不影响输入数据 ***可以影响自己的观察

MDP形式定义

RL的目标

最大化累积奖赏的期望

CEM交叉熵方法

算法步骤

  1. 初始化策略
  2. 重复
    1. 抽样N个sessions
    2. 选取elite sessions:选择前M个最好的session(奖励最大的)
    3. 更新策略使得elite sessions中的动作优先级更高

Tabular CE

Smoothing

  • 上述方法存在一个问题:如果某个状态只访问了一次,那么在那一次所采取的动作将会在未来一直被采取。
  • 应用平滑技术:
    π ( a | s ) = [ <mtext> took a at s </mtext> ] + λ [ <mtext> was at s </mtext> ] + λ N a c t i o n s
  • 另一种:平滑更新
    π i + 1 ( a | s ) = α π o p t + ( 1 α ) π i ( a | s )

随机MDP

  • 如果环境具有随机性,算***更偏向“幸运”的session。
  • 在(由随机性带来的)幸运session上训练并不好。
  • 解决方法:在每一个状态抽样若干个动作,从那些state-action对开始运行若干模拟,将结果平均。降低随机性的影响。

Approximate CE

算法步骤

连续动作空间

CE Trick

  • 记住最近3-5次迭代的sessions
    • 全部用于训练(利用最近的sessions和新抽样的sessions作为候选)
    • 简单环境下可能导致收敛变慢
  • 使用熵来正则化
    • 防止过早收敛,防止最优动作无法被探索到
  • 并行采样
  • 如果是部分观测问题,使用RNN

CE方法总结:

  • 容易实现
  • 效果还不错
  • 黑盒优化

    • 不知道环境信息
    • 不知道中间奖赏信息
  • 样本效率低,采样了很多sessions,只有部分可以用于训练。在现实环境很难使用。

  • 需要完整的session才能训练
全部评论

相关推荐

03-21 08:46
已编辑
门头沟学院 C++
只写bug的程序媛:本科能找到好的,真不建议读研,提前占坑比较好,本科找不到好的,也不建议读研,因为两三年之后压力只会更大,唯一的解就是行业好起来
点赞 评论 收藏
分享
咦哟,从去年八月份开始长跑,两处实习转正都失败了,风雨飘摇,终于拿到offer了更新一下面试记录:秋招:多部门反复面试然后挂掉然后复活,具体问了啥已经忘了,只是被反复煎炸,直至焦香😋春招:base北京抖音hr打来电话说再次复活,准备面试,gogogo北京抖音一面:六道笔试题:1.promise顺序2.定义域问题3.flat展开4.并发请求5.岛屿数量算法(力扣)深度,广度都写6.忘记了,好像也是算法,难度中等其他问题多是框架底层设计,实习项目重难点~~~秒过😇北京抖音二面:三道笔试题:(为什么只有三道是因为第三道没做出来,卡住了)1.中等难度算法(忘记啥题了,应该是个数组的)2.认识js的继承本质(手写继承模式,深入js的面相对象开发)3.手写vue的响应式(卡在了watch,导致挂掉)---后知后觉是我的注册副作用函数写得有问题,有点紧张了其他题目多是项目拷打,项目亮点,对实习项目的贡献~~~第二天,挂,but立马复活转战深圳客服当天约面深圳客服一面:六道笔试题,由于面过太多次字节,面试官叫我直接写,不用讲,快些写完😋,具体都是些继承,深拷贝(注意对数组对象分开处理,深层次对象,循环引用),加中等难度算法题~~~秒过深圳客服二面:口诉八股大战:大概囊括网络,浏览器渲染原理,动画优化,时间循环,任务队列等等(你能想到的简单八股通通拉出来鞭尸😋)算法题:笔试题6道:1:找出数组内重复的数,arr[0]-arr[n]内的数大小为[1-n],例如[1,2,2,3,3]返回[2,3],要求o(n),且不使用任何额外空间(做到了o(n),空间方面欠佳,给面试官说进入下一题,做不来了)2:原滋原味的继承(所以继承真滴很重要)3:力扣股票购买时机难度中等其他滴也忘记了,因为拿到offer后鼠鼠一下子就落地了,脑子自动过滤掉可能会攻击鼠鼠的记忆😷~~~秒过深圳客服三面:项目大战参与战斗的人员有:成员1:表单封装及其底层原理,使用成本的优化,声明式表单成员2:公司内部库生命周期管理成员3:第三方库和内部库冲突如何源码断点调试并打补丁解决成员4:埋点的艺术成员5:线上项目捷报频传如何查出内鬼成员6:大文件分片的风流趣事成员7:设计模式对对碰成员8:我构建hooks应对经理的新增的小需求的故事可能项目回答的比较流利,笔试题3道,都很简单,相信大家应该都可以手拿把掐😇~~~过过过无hr面后续煎熬等待几天直接hr打电话发offer了,希望大家也可以拿到自己心仪的offer
法力无边年:牛哇,你真是准备得充分,我对你没有嫉妒,都是实打实付出
查看21道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务