算法岗常见面试题(五):梯度消失和梯度爆炸

这个链接已经说的很好的:

梯度消失、爆炸的原因及解决办法:https://zhuanlan.zhihu.com/p/180568816

总结一下:

防止梯度爆炸:

  1. 梯度剪切:更新梯度时,梯度超过某个阈值,就将其强制限制在这个范围内
  2. 权重正则化:L1正则和L2正则

防止梯度消失:

  1. 合理的激活函数(如ReLU)+权重初始化
  2. Batch Normalization:应用于每层激活函数之前
  3. 残差网络

以上问题可以拓展到具体的模型上,比如问BERT是如何防止梯度消失的,就可以从残差网络等方面回答

#算法面经#
全部评论
这个确实是算法岗比较常见的题。
1 回复 分享
发布于 2023-03-28 20:54 北京

相关推荐

sagima:然后这个帖子又登上了
点赞 评论 收藏
分享
KPLACE:首先是板面看起来不够,有很多奖,比我厉害。项目要精减,大概详细描述两到三个,要把技术栈写清楚,分点,什么算法,什么外设,怎么优化,不要写一大堆,分点,你写上去的目的,一是让别人知道你做了这个知识点,然后在面试官技术面的时侯,他知道你会这个,那么就会跟你深挖这个,然后就是个人评价改为专业技能
点赞 评论 收藏
分享
评论
3
20
分享

创作者周榜

更多
牛客网
牛客企业服务