弗洛伊德彪

2019-08-05 13:39 已编辑燕山大学 Java

关注

深度学习常见的优化方法(Optimizer)总结:Adam,SGD,Momentum,AdaGard等

机器学习的常见优化方法在最近的学习中经常遇到，但是还是不够精通．将自己的学习记录下来，以备不时之需

基础知识:

机器学习几乎所有的算法都要利用损失函数 lossfunction 来检验算法模型的优劣，同时利用损失函数来提升算法模型．

这个提升的过程就叫做优化(Optimizer)

下面这个内容主要就是介绍可以用来优化损失函数的常用方法

常用的优化方法(Optimizer):

1.SGD&BGD&Mini-BGD:

SGD(stochastic gradient descent):随机梯度下降,算法在每读入一个数据都会立刻计算loss function的梯度来update参数．假设loss function为L(w)，下同．\[w-=\eta \bigtriangledown_{w_{i}}L(w_{i}) \]

Pros:收敛的速度快；可以实现在线更新；能够跳出局部最优

Cons:很容易陷入到局部最优，困在马鞍点．

BGD(batch gradient descent):批量梯度下降，算法在读取整个数据集后累加来计算损失函数的的梯度
\[w-=\eta \bigtriangledown_{w}L(w)\]

Pros:如果loss function为convex，则基本可以找到全局最优解

Cons:数据处理量大，导致梯度下降慢;不能实时增加实例，在线更新；训练占内存

Mini-BGD(mini-batch gradient descent):顾名思义，选择小批量数据进行梯度下降，这是一个折中的方法．采用训练集的子集(mini-batch)来计算loss function的梯度．\[w-=\eta \bigtriangledown_{w_{i:i+n}}L(w_{i:i+n})\]

这个优化方法用的也是比较多的，计算效率高而且收敛稳定，是现在深度学习的主流方法．

上面的方法都存在一个问题，就是update更新的方向完全依赖于计算出来的梯度．很容易陷入局部最优的马鞍点．能不能改变其走向，又保证原来的梯度方向．就像向量变换一样，我们模拟物理中物体流动的动量概念(惯性).引入Momentum的概念．
2.Momentum

在更新方向的时候保留之前的方向，增加稳定性而且还有摆脱局部最优的能力\[\Delta w=\alpha \Delta w- \eta \bigtriangledown L(w)\] \[w=w+\Delta w\]

若当前梯度的方向与历史梯度一致（表明当前样本不太可能为异常点），则会增强这个方向的梯度，若当前梯度与历史梯方向不一致，则梯度会衰减。一种形象的解释是：我们把一个球推下山，球在下坡时积聚动量，在途中变得越来越快，\(\eta\)可视为空气阻力，若球的方向发生变化，则动量会衰减。
3.Adagrad：(adaptive gradient)自适应梯度算法,是一种改进的随机梯度下降算法．
以前的算法中，每一个参数都使用相同的学习率\(\alpha\). Adagrad算法能够在训练中自动对learning_rate进行调整，出现频率较低参数采用较大的\(\alpha\)更新．出现频率较高的参数采用较小的\(\alpha\)更新．根据描述这个优化方法很适合处理稀疏数据．\[G=\sum ^{t}_{\tau=1}g_{\tau} g_{\tau}^{T} 　其中 s.t. g_{\tau}=\bigtriangledown L(w_{i})\] 对角线矩阵\[G_{j,j}=\sum _{\tau=1}^{t} g_{\tau,j\cdot}^{2}\] 这个对角线矩阵的元素代表的是参数的出现频率.每个参数的更新\[w_{j}=w_{j}-\frac{\eta}{\sqrt{G_{j,j}}}g_{j}\]
4.RMSprop:(root mean square propagation)也是一种自适应学习率方法．不同之处在于，Adagrad会累加之前所有的梯度平方，RMProp仅仅是计算对应的平均值．可以缓解Adagrad算法学习率下降较快的问题．\[v(w,t)=\gamma v(w,t-1)+(1-\gamma)(\bigtriangledown L(w_{i}))^{2} ,其中 \gamma 是遗忘因子\]　　参数更新\[w=w-\frac{\eta}{\sqrt{v(w,t)}}\bigtriangledown L(w_{i})\]
5.Adam:(adaptive moment estimation)是对RMSProp优化器的更新.利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率.
优点:每一次迭代学习率都有一个明确的范围,使得参数变化很平稳.
\[m_{w}^{t+1}=\beta_{1}m_{w}^{t}+(1-\beta_{1}) \bigtriangledown L^{t} ,m为一阶矩估计\]
\[v_{w}^{t+1}=\beta_{2}m_{w}^{t}+(1-\beta_{2}) (\bigtriangledown L^{t})^{2},v为二阶矩估计\]
\[\hat{m}_{w}=\frac{m_{w}^{t+1}}{1-\beta_{1}^{t+1}}，估计校正，实现无偏估计\]
\[\hat{v}_{w}=\frac{v_{w}^{t+1}}{1-\beta_{2}^{t+1}}\]
\[w^{t+1} \leftarrow=w^{t}-\eta \frac{\hat{m}_{w}}{\sqrt{\hat{v}_{w}}+\epsilon}\]
Adam是实际学习中最常用的算法

优化方法在实际中的直观体验

损失曲面的轮廓和不同优化算法的时间演化。注意基于动量的方法的“过冲”行为，这使得优化看起来像一个滚下山的球

优化环境中鞍点的可视化，其中沿不同维度的曲率具有不同的符号（一维向上弯曲，另一维向下）。请注意，SGD很难打破对称性并陷入困境。相反，诸如RMSprop之类的算法将在鞍座方向上看到非常低的梯度。由于RMSprop更新中的分母术语，这将提高此方向的有效学习率，从而帮助RMSProp继续进行.

参考文献：

全部评论

推荐最新楼层

11-20 16:41

Momenta入职感受

给大家详细聊一聊公司上班细节，大家可以评估下自己来了能否适应。智驾整体强度都比较大，因为基本都算初创公司，还没做到能躺着收钱的地步，凡事看两面，压力大但是能学到东西，不至于说每天干重复的东西么没有提示，工作时间10am-19pm，项目交付的时候加班就多，基本上9点左右，公司包三餐 工作再忙都要好好吃饭 公司统一使用美餐app 可以根据自己喜好来订餐到工位餐区也可以去楼下美好荟去合作商家堂食比如：老乡鸡 costa 美餐20元餐标超出部分自己补差价👇 王阿吉的快餐真的很好吃强推 ）别担心会吃腻 行政小姐姐会定期更换合作商家。其他福利 ，中秋节有公司定制周边和礼盒（全年就中秋有），出行方面内部员...

Momenta公司福利 285人发布

点赞评论收藏

分享

11-20 10:27

中国科学技术大学算法工程师

秋招是时候收官了

拿到字节和B站的offer，小红书oc，是时候收官记录一下秋招了。个人bg：中国科学技术大学本硕，3段大厂实习，无竞赛，3篇录取论文（ICML,ICCV等），主要投递的都是推荐算法相关方向投递情况：秋招一共投了20多家，主要集中在大厂和内容平台，目前还有一些在进度中的3个offer情况：小红书是搜索方向，base上海，但是还没开奖；字节是data推荐，好像是做西瓜视频，base北京，B站是做推荐算法，base上海，年包差不多，B站开这么多算是惊喜了。经过了深思熟虑，最终决定去B站。选择B站的考量：第一份工作我还是很谨慎的，我会更关注公司稳定性和个人成长性以及工作体验，所以跟学长学姐打听了之后首...

喜欢吃蛋糕大魔王：小破站真的出息了，我们也终究会出息的

点赞评论收藏

分享

09-27 15:48

中南大学 Java

实习就怕看见这几个字！焯！

老登又来找我了，我是真的日了，怎么就逮着我一个人给他干杂活啊！线上跟他说交材料去了，晚点到，但是线下等会见面又要道歉了#牛客创作赏金赛#

牛客775778651号：我导师已经快一年没找我说话了，我也没找他说话，他是不是忘了还有我这个学生

牛客创作赏金赛

点赞评论收藏

分享

10-17 12:16

同济大学 Java

7182oat：快快放弃了然后发给我，然后让我也泡他七天最后再拒掉，狠狠羞辱他一把😋

点赞评论收藏

分享

点赞收藏评论

全站热榜

正在热议

# 25届秋招总结 #

291915次浏览 2565人参与

# 美团求职进展汇总 #

1324366次浏览 12424人参与

# 百度开奖 #

155030次浏览 930人参与

# 地方国企笔面经互助 #

3578次浏览 8人参与

# 国央企薪资爆料 #

6210次浏览 46人参与

# 选完offer后，你后悔学本专业吗 #

18849次浏览 134人参与

# 阿里云管培生offer #

6531次浏览 245人参与

# 学历or实习经历，哪个更重要 #

49718次浏览 383人参与

# 如果不工作真的会快乐吗 #

58402次浏览 505人参与

# 面试体验感最好的是哪家？ #

84700次浏览 839人参与

# 如何一边实习一边秋招 #

990615次浏览 12630人参与

# 正在实习的你，几点下班 #

51150次浏览 381人参与

# 得物求职进展汇总 #

65795次浏览 678人参与

# 腾讯求职进展汇总 #

195084次浏览 1634人参与

# 提前批简历挂麻了怎么办 #

146066次浏览 1942人参与

# 银行笔面经互助 #

82387次浏览 873人参与

# 0offer是寒冬太冷还是我太菜 #

896401次浏览 7997人参与

# 实习生应该准时下班吗 #

167127次浏览 1159人参与

# 数据人offer决赛圈怎么选 #

116364次浏览 1461人参与

# 海康威视求职进展汇总 #

398129次浏览 3403人参与

# 网申一定要掌握的小技巧 #

5275次浏览 52人参与

# 机械人，你在招聘流程中的企业有哪些？ #

17787次浏览 186人参与

牛客网
牛客企业服务