AC是off-policy吧,更新策略使用的数据仍然不是被更新策略产生的呀。只是策略之间的差异没有在更新方程中体现出来,所以没有用重要性采样吧
点赞 1

相关推荐

点赞 评论 收藏
分享
牛客网
牛客企业服务