为啥给定初始值,梯度下降算法能取得最优值?

为啥给定初始值,梯度下降算法能取得最优值?
全部评论
个人见解:梯度下降求解无约束最优化问题实现简单,好用。例如LR中的目标函数是光滑的凸函数,这时候保证能找到全局最优解,因为负梯度的方向朝向函数下降最快的方向,永远朝向全局最小值(最大值则反之)。当有多个极大值或极小值时,需要对梯度下降进行优化,比如动量,NAG,Adagrad,RMSprop等,可以减少陷入极大值极小值的可能性,设置得当可以得到全局最优解,但并不能100%保证获得全局最优解。
点赞 回复 分享
发布于 2017-08-16 10:58
泰勒定理展开取第一项,当delta x取导数的相反数的时候其稳定为负,所以就能一直下降
点赞 回复 分享
发布于 2017-08-16 11:08
首先,泰勒展开,负梯度方向是descent direction。 其次,梯度下降(其他的line search、trust region也一样)只有在原问题是凸问题的情况下,才能保证以任意精度(因为毕竟是数值方法)取得最优解。 非凸情况下,改进的GD(比如随机初始化,escape  saddle等trick等等)也只能保证以概率无限接近于1取得局部最优。
点赞 回复 分享
发布于 2017-08-16 11:12
最初版本的GD是不能取得最优的,会陷入局部最优。
点赞 回复 分享
发布于 2017-08-16 11:16
不一定啊,得是凸优化才行吧
点赞 回复 分享
发布于 2017-08-16 11:42

相关推荐

11-15 18:39
已编辑
西安交通大学 Java
全村最靓的仔仔:卧槽,佬啥bg呢,本也是西交么
点赞 评论 收藏
分享
11-01 20:03
已编辑
门头沟学院 算法工程师
Amazarashi66:这种也是幸存者偏差了,拿不到这个价的才是大多数
点赞 评论 收藏
分享
评论
点赞
收藏
分享
牛客网
牛客企业服务