为啥给定初始值,梯度下降算法能取得最优值?

为啥给定初始值,梯度下降算法能取得最优值?
全部评论
个人见解:梯度下降求解无约束最优化问题实现简单,好用。例如LR中的目标函数是光滑的凸函数,这时候保证能找到全局最优解,因为负梯度的方向朝向函数下降最快的方向,永远朝向全局最小值(最大值则反之)。当有多个极大值或极小值时,需要对梯度下降进行优化,比如动量,NAG,Adagrad,RMSprop等,可以减少陷入极大值极小值的可能性,设置得当可以得到全局最优解,但并不能100%保证获得全局最优解。
点赞 回复 分享
发布于 2017-08-16 10:58
泰勒定理展开取第一项,当delta x取导数的相反数的时候其稳定为负,所以就能一直下降
点赞 回复 分享
发布于 2017-08-16 11:08
首先,泰勒展开,负梯度方向是descent direction。 其次,梯度下降(其他的line search、trust region也一样)只有在原问题是凸问题的情况下,才能保证以任意精度(因为毕竟是数值方法)取得最优解。 非凸情况下,改进的GD(比如随机初始化,escape  saddle等trick等等)也只能保证以概率无限接近于1取得局部最优。
点赞 回复 分享
发布于 2017-08-16 11:12
最初版本的GD是不能取得最优的,会陷入局部最优。
点赞 回复 分享
发布于 2017-08-16 11:16
不一定啊,得是凸优化才行吧
点赞 回复 分享
发布于 2017-08-16 11:42

相关推荐

我在朝九晚六双休的联想等你:如果我是你,身体素质好我会去参军,然后走士兵计划考研211只需要200多分。
点赞 评论 收藏
分享
废铁汽车人:秋招真是牛鬼蛇神齐聚一堂
点赞 评论 收藏
分享
评论
点赞
收藏
分享
牛客网
牛客企业服务