强化学习从基础到进阶-案例与实践[4]:深度Q网络-DQN、double DQN、经验回放、rainbow、分布式DQN 传统的强化学习算法会使用表格的形式存储状态价值函数 V(s)V(s)V(s) 或动作价值函数 Q(s,a)Q(s,a)Q(s,a),但是这样的方法存在很大的局限性。例如,现实中的强化学习任务所面临的状态空间往往是连续的,存在无穷多个状态,在这种情况下,就不能再使用表格对价值函数进行存储。价值函数近似利用函数直接拟合状态价值函数或动作价值函数,降低了对存储空间的要求,有效地解决了这个问题。 为了在连续的状态和动作空间中计算值函数 Qπ(s,a)Q_{\pi}(s,a)Qπ(...