想回老家的潜伏者躺平又起来了

2019-07-26 23:48 已编辑字节跳动_算法工程师

关注

《强化学习》模型无关方法

模型无关学习

Monte-Carlo & Temporal Difference; Q-learning

探索与利用

on-policy 和 off-policy

SARSA

Expected value SARSA

SARSA和Q-Learning对比

on-policy和off-policy对比

on-policy	off-policy
Agent 可以选择动作	Agent 不能选择动作
Most obvious setup	Learning with exploration,playing without exploration
Agent always follows his own policy	Learning from expert(expert is imperfect)
Learning from sessions(recorded data)
can’t learn from off-policy	can learn from on-policy
SARSA	Q-learning
more…	Expected Value SARSA

经验回放

略

全部评论

推荐最新楼层

03-14 18:57

中国矿业大学 C++

美的美少年计划25暑期实习笔试

三道水题。两个字符串处理，一个数据结构。因为报名Java后端开发比赛只能用Java写，对C++选手来说不是很适应。 题目不知如何描述，看一个样例就明白了。 Input: -A1: v1 B1: v2 B2: v3 C1: v4 -A2: v5 -A3: v6 B3: v7 C2: v8 # Output: -A1: v1 -A1-B1: v2 -A1-B2: v3 -A1-B2-C1: v4 -A2: v5 -A3: v6 -A3-B3: v7 -A3-B3-C2: v8 # 遇到#结束，总之就是字符串操作，注意缩进是4个空格而非...

咩咩子_：咱们都是美少年

查看3道真题和解析

投递美的集团等公司10个岗位 > 技术岗笔试题求解

点赞评论收藏

分享

03-11 18:00

广西民族大学招聘专员

你们退税都退了多少啊。。。😮

我去年毕业的，退税才一千多好羡慕别人退了一大笔

2025退税开始啦

点赞评论收藏

分享

03-04 11:20

电子科技大学 C++

不会取名字的牛油：学历加大加粗，面试库库来

点赞评论收藏

分享

03-13 20:53

浙江大学 Java

感觉又挂了发个面经攒点功德吧先问了数据库和操作系统项目中最难的问题是什么？然后是两个题目就结束了，我感觉答的都不是很好，请教一下大家应该怎么很好的实现。1. 用c++实现一个日志系统，可以被调用，要求性能最好。先思考三分钟，说一下思路，伪代码实现。2. 判断数组中给定i-j行中是否至少存在某一列非递减（不严格单调递增）。

查看3道真题和解析

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

2064363次浏览 23898人参与

# 初创公司值得加入吗？ #

14757次浏览 101人参与

# 腾讯音乐26届实习 #

153721次浏览 976人参与

# 牛友故事会 #

180817次浏览 3152人参与

# 打杂的实习你会去吗？ #

101895次浏览 905人参与

# 如果能重来，就业or读研你选哪个？ #

108557次浏览 1379人参与

# 元戎现在香不香 #

66412次浏览 541人参与

# 硬件人的简历怎么写 #

245873次浏览 2852人参与

# 反问环节如何提问 #

78038次浏览 1866人参与

# 机械人还在等华为开奖吗？ #

202006次浏览 1052人参与

# 技术岗笔试题求解 #

30701次浏览 479人参与

# 牛友打假中心 #

3947次浏览 207人参与

# 入职以后才知道的校招谎言 #

66715次浏览 399人参与

# OPPO求职进展汇总 #

601304次浏览 4718人参与

# 机械人，说说你的烦心事 #

53618次浏览 758人参与

# 软开人，秋招你打算投哪些公司呢 #

72215次浏览 794人参与

# 联想求职进展汇总 #

227917次浏览 1867人参与

# 秋招最大的收获是什么？ #

20111次浏览 238人参与

# 两会劳动法放大招 #

33597次浏览 531人参与

# 我的省钱小妙招 #

6730次浏览 213人参与

# 22届毕业，是读研还是拿外包offer先苟着 #

5478次浏览 29人参与

# 双非应该如何逆袭？ #

26789次浏览 900人参与

牛客网
牛客企业服务