1、在多智能深度强化学习里,智能体和环境交互产生大量的样本,神经网络需要利用这些样本来进行更新,对这些样本的处理,传统的方法是用1个缓存池来保存所有智能体的样本数据,池子里面每条样本数据也就是每条记录为一个数组,里面存的存所有智能体同一时刻的联合状态和动作,然后对这些样本进行均匀采样,一般采样的batch_size也就是采集多少条数据,一般设置为1024条,然后是缓存池的大小一般是10的六次方然后这种方***存在一些问题,首先是这些较大规模的样本里面有些是有利于神经网络训练的,有些是不利用神经网络训练,那我们当然希望能够采集到更多有利于神经网络训练的样本,但是传统的均匀采样随机性太强了,无法保...