《强化学习》 DP动态规划

奖赏设计

累计奖赏和折扣累计奖赏




数学上看,折扣奖赏机制可以将累计回报转化为递推的形式:

G t = R t + γ ( R t + 1 + γ R t + 2 + . . . ) = R t + γ G t + 1

折扣是一种固定效应模型

奖赏设计:不要平移,奖励做什么而不是怎么做

奖赏设计:缩放,塑形

贝尔曼等式

状态值函数

值函数的贝尔曼期望等式

动作值函数

两者关系

动作值函数的贝尔曼期望等式

衡量策略优劣

贝尔曼最优等式

广义策略迭代GPI

策略评估


策略改进



GPI


策略迭代

值迭代

对比

全部评论

相关推荐

10-14 13:25
已编辑
门头沟学院 C++
点赞 评论 收藏
分享
评论
点赞
收藏
分享
牛客网
牛客企业服务