《强化学习》基于策略的方法

基于策略RL和基于值函数RL

直觉


不同种类的策略


策略梯度形式




LOG技巧

REINFORCE


with baseline


Actor-Critic

Advantage Actor Critic



policy based 和 Value based

A3C

结合监督学习和强化学习



全部评论

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务