《序列模型》之循环神经网络基础

RNN model

模型架构


BPTT





不同类型的RNN

梯度爆炸和梯度消失

出现原因






解决梯度爆炸

检测

梯度裁剪


截断BPTT

解决梯度消失

很难检测


如何解决

  • LSTM,GRU
  • ReLU激活函数
  • 循环权重矩阵初始化方法
  • Skip connections


    将权重矩阵分解 Q 1 Λ Q 的话,其中 Λ 是对角线上是特征值的对角矩阵,Q是特征值对应的特征向量组成的矩阵。
    那么若干时间步的权重乘积可以表示为 Q 1 Λ n Q
    由正交矩阵的特征值绝对值等于1的特性,可以得出进行若干次矩阵乘法的结果既不会爆炸也不会消失。

LSTM and GRU

LSTM v0


LSTM with forget gate



Long Short-term Memory

GRU



On the Properties of Neural Machine Translation: Encoder-Decoder Approaches
Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

LSTM or GRU

  • LSTM 更加灵活
  • GRU 更少的参数
    一般先训练LSTM,然后训练GRU,最后对比并选择

BiRNN and Deep RNN



参考资料

《深度学习》deeplearning.ai
Introduction to Deeplearning HEC

全部评论

相关推荐

02-12 00:59
已编辑
哈尔滨工业大学 产品经理
华为 软件开发岗 20.6*16薪 本科
点赞 评论 收藏
分享
起名字真难233:人家只有找猴子的预算,来个齐天大圣他们驾驭不住呀😂😂
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务