Adam结合了动量和RMSProp,可以对参数进行自适应的学习率调整,训练初期收敛更快。SGD需要手动调整学习率,在最小值平坦区域收敛变慢(摘抄自CSDN)

相关推荐

10-23 10:45
已编辑
门头沟学院 算法工程师
腾讯 算法岗 n+7*16
点赞 评论 收藏
分享
牛客网
牛客企业服务