启元世界二面 自我介绍 实验室项目介绍 MA2C是什么? 在你的项目中,是怎么处理多智能体学习过程中的非平稳问题的? AC算法和PG算法相比,有什么优势? 在神经网络中,为什么要引入残差结构? 为什么GRU和LSTM相比于RNN能够避免梯度消失问题? 说说off-policy 和 on-policy有什么区别? ReLu激活函数在0处的导数是多少?ReLu在零点不可导,那么在反向传播中怎么处理? 答:在零点是人为给他赋予一个导数,一般是0或者1, 追问:那给它赋值为2可不可以?为什么? PPO中,怎么度量两个分布差别到底多大?有哪几种方法去度量? 答:KL散度 追问:那你说说KL散度是怎么计算...