《序列模型》之循环神经网络基础

RNN model

模型架构


BPTT





不同类型的RNN

梯度爆炸和梯度消失

出现原因






解决梯度爆炸

检测

梯度裁剪


截断BPTT

解决梯度消失

很难检测


如何解决

  • LSTM,GRU
  • ReLU激活函数
  • 循环权重矩阵初始化方法
  • Skip connections


    将权重矩阵分解 Q 1 Λ Q 的话,其中 Λ 是对角线上是特征值的对角矩阵,Q是特征值对应的特征向量组成的矩阵。
    那么若干时间步的权重乘积可以表示为 Q 1 Λ n Q
    由正交矩阵的特征值绝对值等于1的特性,可以得出进行若干次矩阵乘法的结果既不会爆炸也不会消失。

LSTM and GRU

LSTM v0


LSTM with forget gate



Long Short-term Memory

GRU



On the Properties of Neural Machine Translation: Encoder-Decoder Approaches
Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

LSTM or GRU

  • LSTM 更加灵活
  • GRU 更少的参数
    一般先训练LSTM,然后训练GRU,最后对比并选择

BiRNN and Deep RNN



参考资料

《深度学习》deeplearning.ai
Introduction to Deeplearning HEC

全部评论

相关推荐

剑桥断刀:找啥工作,牛客找个比如大厂软开或者随便啥的高薪牛马,大把没碰过妹子的技术仔,狠狠拿捏爆金币
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务