2019-07-26 23:46 已编辑字节跳动_算法工程师

关注

《强化学习》基本概念和交叉熵方法

基本概念

监督学习与强化学习

监督学习	强化学习
通过学习近似参考答案	通过试验和错误来学习最优策略
需要正确答案	***的动作需要反馈
模型不影响输入数据	***可以影响自己的观察

MDP形式定义

RL的目标

最大化累积奖赏的期望

CEM交叉熵方法

算法步骤

初始化策略
重复
1. 抽样N个sessions
2. 选取elite sessions:选择前M个最好的session(奖励最大的)
3. 更新策略使得elite sessions中的动作优先级更高

Tabular CE

Smoothing

上述方法存在一个问题：如果某个状态只访问了一次，那么在那一次所采取的动作将会在未来一直被采取。
应用平滑技术：
另一种：平滑更新

随机MDP

如果环境具有随机性，算***更偏向“幸运”的session。
在(由随机性带来的)幸运session上训练并不好。
解决方法：在每一个状态抽样若干个动作，从那些state-action对开始运行若干模拟，将结果平均。降低随机性的影响。

Approximate CE

算法步骤

连续动作空间

CE Trick

记住最近3-5次迭代的sessions
- 全部用于训练（利用最近的sessions和新抽样的sessions作为候选）
- 简单环境下可能导致收敛变慢
使用熵来正则化
- 防止过早收敛，防止最优动作无法被探索到
并行采样
如果是部分观测问题，使用RNN

CE方法总结：

容易实现
效果还不错
黑盒优化
- 不知道环境信息
- 不知道中间奖赏信息
样本效率低，采样了很多sessions，只有部分可以用于训练。在现实环境很难使用。
需要完整的session才能训练

全部评论

推荐最新楼层

04-21 14:22

哔哩哔哩_开发工程师(搜索推荐)(准入职员工)

哔哩哔哩内推-哔哩哔哩内推码

啊一切都是命运之门的选择，8年b站老用户没想到能拿到offer,来b站两周了，简单说一下在阿b的感受吧 面试整体很丝滑，4.28hr面—4.29leader面—4.30上午面完晚上就发offer了 我猜是因为之前做过珀莱雅在B站渠道的媒介和综艺《萌探3》的pd，有商务的经验，整体比较匹配岗位所以过的很快 想了解面经的后面会发一个完整的笔记 1️⃣工作氛围：入职后感觉每天都很开心，部门氛围很好，工作也很有成长性。部门都很年轻，会耐心教工作内容，很多S级项目从策划到落地都可以参与，有不懂的及时提问，哥哥姐姐们都很好，每天都感觉进步一点点。 2️⃣工作时间：我们部门是11点上班8点下班，弹性...

哔哩哔哩公司福利 291人发布

点赞评论收藏

04-22 19:04

哔哩哔哩_游戏算法工程师(准入职员工)

哔哩哔哩内推bilibili内推

不知不觉已经在哔哩实习马上一年了，实话实说哔哩实习的体验感真的蛮好的，今年也成功在哔哩顺利转正，拿到正式的offer了。 首先是实习强度💢 ，这块哔哩确实挺好的，实习的时候组内的大佬都不内卷，每天各自完成自己的工作就能下班回家啦，每天晚上8点半可以拿免费的加班餐，9点半能免费打车回家（我住的近，根本用不到） 🫶️ 团队氛围这块真的没话说，团队内的大佬都很乐意帮助我快速成长，犯错的时候，及时找mentor沟通，mentor真的无所不能，而且还会给自己许多思考的空间 公司还有免费的健身房可以锻炼，我今天从五月份到9月份和同事一起去健身房锻炼已经减掉15斤了，而且最近一段时间又新换了一批设备 哔...

哔哩哔哩公司福利 291人发布

点赞评论收藏

03-21 08:46

已编辑

门头沟学院 C++

来自老板软件的截图

只写bug的程序媛：本科能找到好的，真不建议读研，提前占坑比较好，本科找不到好的，也不建议读研，因为两三年之后压力只会更大

，唯一的解就是行业好起来

点赞评论收藏

04-18 09:01

已编辑

字节跳动_客服平台_前端开发(准入职员工)

第一个offer，开始休息了

咦哟，从去年八月份开始长跑，两处实习转正都失败了，风雨飘摇，终于拿到offer了更新一下面试记录：秋招：多部门反复面试然后挂掉然后复活，具体问了啥已经忘了，只是被反复煎炸，直至焦香😋春招：base北京抖音hr打来电话说再次复活，准备面试，gogogo北京抖音一面：六道笔试题：1.promise顺序2.定义域问题3.flat展开4.并发请求5.岛屿数量算法（力扣）深度，广度都写6.忘记了，好像也是算法，难度中等其他问题多是框架底层设计，实习项目重难点～～～秒过😇北京抖音二面：三道笔试题：（为什么只有三道是因为第三道没做出来，卡住了）1.中等难度算法（忘记啥题了，应该是个数组的）2.认识js的继承本质（手写继承模式，深入js的面相对象开发）3.手写vue的响应式（卡在了watch，导致挂掉）---后知后觉是我的注册副作用函数写得有问题，有点紧张了其他题目多是项目拷打，项目亮点，对实习项目的贡献～～～第二天，挂，but立马复活转战深圳客服当天约面深圳客服一面：六道笔试题,由于面过太多次字节，面试官叫我直接写，不用讲，快些写完😋，具体都是些继承，深拷贝（注意对数组对象分开处理，深层次对象，循环引用），加中等难度算法题～～～秒过深圳客服二面：口诉八股大战：大概囊括网络，浏览器渲染原理，动画优化，时间循环，任务队列等等（你能想到的简单八股通通拉出来鞭尸😋）算法题：笔试题6道：1：找出数组内重复的数，arr[0]-arr[n]内的数大小为[1-n]，例如[1，2，2，3，3]返回[2，3]，要求o（n），且不使用任何额外空间（做到了o（n），空间方面欠佳，给面试官说进入下一题，做不来了）2：原滋原味的继承（所以继承真滴很重要）3：力扣股票购买时机难度中等其他滴也忘记了，因为拿到offer后鼠鼠一下子就落地了，脑子自动过滤掉可能会攻击鼠鼠的记忆😷～～～秒过深圳客服三面：项目大战参与战斗的人员有：成员1：表单封装及其底层原理，使用成本的优化，声明式表单成员2：公司内部库生命周期管理成员3：第三方库和内部库冲突如何源码断点调试并打补丁解决成员4：埋点的艺术成员5：线上项目捷报频传如何查出内鬼成员6：大文件分片的风流趣事成员7：设计模式对对碰成员8：我构建hooks应对经理的新增的小需求的故事可能项目回答的比较流利，笔试题3道，都很简单，相信大家应该都可以手拿把掐😇～～～过过过无hr面后续煎熬等待几天直接hr打电话发offer了，希望大家也可以拿到自己心仪的offer

法力无边年：牛哇，你真是准备得充分，我对你没有嫉妒，都是实打实付出

，

查看21道真题和解析

点赞评论收藏

昨天 07:46

已编辑

福州大学 Java

25春招择offer

👋个人背景：211计科本，技术栈Java（纯菜鸡）👏offer1：宝-宝-巴-士iOS开发、base福州，双休八小时💯offer2：浩鲸Java开发、base福州，每周的1246加班，一般到九点，不排除到十一点薪资是8.5*（12+3）和11*12另外，想问各位一件事，是不是真的有机会就不要选iOS啊

点赞评论收藏

全站热榜

携程进展讨论区

热聊中

创作者周榜

正在热议

《强化学习》 基本概念和交叉熵方法

基本概念

监督学习与强化学习

MDP形式定义

RL的目标

CEM交叉熵方法

算法步骤

Tabular CE

Smoothing

随机MDP

Approximate CE

算法步骤

连续动作空间

CE Trick

全站热榜

创作者周榜

《强化学习》基本概念和交叉熵方法