强化学习从基础到进阶-案例与实践[3]:表格型方法:Sarsa、Qlearning;蒙特卡洛策略、时序差分等以及Qlearning项目实战 策略最简单的表示是查找表(look-up table),即表格型策略(tabular policy)。使用查找表的强化学习方法称为表格型方法(tabular method),如蒙特卡洛、Q学习和Sarsa。本章通过最简单的表格型方法来讲解如何使用基于价值的方法求解强化学习问题。 1 马尔可夫决策过程 强化学习是一个与时间相关的序列决策的问题。 例如,如图 3.1 所示,在 t−1t-1t−1 时刻,我看到熊对我招手,下意识的动作就是逃跑。熊看到有人逃跑,就...