牛客482869769号 level
获赞
57
粉丝
3
关注
0
看过 TA
19
IP属地:未知
暂未填写个人简介
私信
关注
2019-03-22 10:56
已编辑
可微是为了保证单向传播梯度计算,单调性的目的是什么呢?看到有的论文说,是能够保证单层模型具有凸函数性能,不是很理解,求大佬们指点一下。
GoKuSon:从最简单的角度考虑,凸函数容易优化啊,不存在鞍点或者局部最优解这种问题,事实上在训练复杂模型的时候很容易跑到局部最优解,你考虑一个小坑挨着一个大坑,大坑的最低点是你想要的最优解,结果你一不小心掉到了小坑里,学习率和扰动不足以使你跳出小坑,那就很坑爹了😂激活函数的目的无非就是信息压缩和到概率空间的映射;单调性这块,我觉得应该就是出于凸优化的这个考虑,不在最简单的地方摔跟头
0 点赞 评论 收藏
分享
关注他的用户也关注了:
牛客网
牛客企业服务