《强化学习》基于策略的方法
基于策略RL和基于值函数RL
直觉
不同种类的策略
策略梯度形式
LOG技巧
REINFORCE
with baseline
Actor-Critic
Advantage Actor Critic
policy based 和 Value based
A3C
结合监督学习和强化学习
相关推荐