2019-07-26 23:46 已编辑字节跳动_算法工程师

关注

《强化学习》基本概念和交叉熵方法

基本概念

监督学习与强化学习

监督学习	强化学习
通过学习近似参考答案	通过试验和错误来学习最优策略
需要正确答案	***的动作需要反馈
模型不影响输入数据	***可以影响自己的观察

MDP形式定义

RL的目标

最大化累积奖赏的期望

CEM交叉熵方法

算法步骤

初始化策略
重复
1. 抽样N个sessions
2. 选取elite sessions:选择前M个最好的session(奖励最大的)
3. 更新策略使得elite sessions中的动作优先级更高

Tabular CE

Smoothing

上述方法存在一个问题：如果某个状态只访问了一次，那么在那一次所采取的动作将会在未来一直被采取。
应用平滑技术：
另一种：平滑更新

随机MDP

如果环境具有随机性，算***更偏向“幸运”的session。
在(由随机性带来的)幸运session上训练并不好。
解决方法：在每一个状态抽样若干个动作，从那些state-action对开始运行若干模拟，将结果平均。降低随机性的影响。

Approximate CE

算法步骤

连续动作空间

CE Trick

记住最近3-5次迭代的sessions
- 全部用于训练（利用最近的sessions和新抽样的sessions作为候选）
- 简单环境下可能导致收敛变慢
使用熵来正则化
- 防止过早收敛，防止最优动作无法被探索到
并行采样
如果是部分观测问题，使用RNN

CE方法总结：

容易实现
效果还不错
黑盒优化
- 不知道环境信息
- 不知道中间奖赏信息
样本效率低，采样了很多sessions，只有部分可以用于训练。在现实环境很难使用。
需要完整的session才能训练

全部评论

推荐最新楼层

10-23 10:17

中国矿业大学（北京） C++

大华

接到了大华研发中心的offer，有相同的uu吗？私聊交流一下

秋招的第一个offer，...

点赞评论收藏

10-24 10:51

已编辑

门头沟学院 Java

作业帮面经~

给个TTL 给大家参考2025-09-22 投递2025-10-18 周六一面周一hr说面试官反馈不错，问是否可以提前实习。约二面2025-10-22 二面一面（1h）实习拷打Mysql 基础八股 + 算法（类似于进制转换）撕了二面（1h20min）实习拷打+场景+算法场景：如何设计并实现一个能够实时统计知乎全站所有帖子，在过去10分钟、30分钟、1小时等不同时间窗口内浏览次数的系统？感觉答的还行。算法：爬楼梯变种，动态规划。撕了许愿OC，但作业帮池子很大，随缘了。

查看4道真题和解析

点赞评论收藏

09-23 12:40

重庆邮电大学 Java

极兔快递

不是哥们，这对吗，给我干哪来了

Sigma429：极兔啊，薪资开的巨低，还在上海，索性不做笔试了

点赞评论收藏

10-19 18:20

福建师范大学 Java

接了数字马力的offer ，我后悔了…

来，说点可能被同行“骂”的大实话。🙊当初接数字马力Offer时，朋友都说：“蚂蚁的“内包”公司？你想清楚啊！”但入职快一年后的今天，我反而对他有了不一样的看法！🔹 是偏见？还是信息差！之前没入职之前外面都在说什么岗位低人一等这类。实际上：这种情况不可至否，不能保证每个团队都是其乐融融。但我在的部门以及我了解的周边同事都还是十分好相处的～和蚂蚁师兄师姐之间也经常开一些小玩笑。总之：身份是蚂蚁公司给的，地位是自己挣的（一个傲娇女孩的自述）。🔹 待遇？玩的就是真实！试用期工资全额发！六点下班跑得快（早9晚6或者早10晚7，动态打卡），公积金顶格交。别听那些画饼的，到手的钱和下班的时间才是真的（都是牛马何必难为牛马）。🔹 能不能学到技术？来了就“后悔”！我们拥有权限直通蚂蚁知识库，技术栈多到学不完。说“学不到东西”的人，来了可能后悔——后悔来晚了（哈哈哈哈，可以不学但是不能没有）！💥 内推地址：https://app.mokahr.com/su/ueoyhg❗我的内推码：NTA6Nvs走我的内推，可以直达业务部门，面试流程更快速，进度可查！今天新放HC，之前挂过也能再战！秋招已经正式开始啦～机会就摆在这，敢不敢来试一试呢？（和我一样，做个勇敢的女孩）

注意格局：去年超发意向是忘了

帮你内推｜数字马力校招

点赞评论收藏

10-25 16:11

门头沟学院 Java

得物测开一面（25min）

给你一段代码，说说代码可以怎么优化，各种层面（可维护性，可读性，异常处理，时间复杂度，空间复杂度，写注释）平时是怎么排查问题的团队合作问题

查看3道真题和解析

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 除了主业以外，你还有哪些其他收入？ #

33461次浏览 299人参与

# 哪些公司校招卡第一学历 #

216661次浏览 770人参与

# 你最满意的offer薪资是哪家公司？ #

《强化学习》 基本概念和交叉熵方法

基本概念

监督学习与强化学习

MDP形式定义

RL的目标

CEM交叉熵方法

算法步骤

Tabular CE

Smoothing

随机MDP

Approximate CE

算法步骤

连续动作空间

CE Trick

全站热榜

创作者周榜

《强化学习》基本概念和交叉熵方法