算法岗常见面试题(五):梯度消失和梯度爆炸
这个链接已经说的很好的:
梯度消失、爆炸的原因及解决办法:https://zhuanlan.zhihu.com/p/180568816
总结一下:
防止梯度爆炸:
- 梯度剪切:更新梯度时,梯度超过某个阈值,就将其强制限制在这个范围内
- 权重正则化:L1正则和L2正则
防止梯度消失:
- 合理的激活函数(如ReLU)+权重初始化
- Batch Normalization:应用于每层激活函数之前
- 残差网络
以上问题可以拓展到具体的模型上,比如问BERT是如何防止梯度消失的,就可以从残差网络等方面回答
#算法面经#