深度学习面经-RNN、LSTM、GRU

简介:RNN、GRU和LSTM都是用于处理序列数据的神经网络模型,它们具有记忆性质,适用于时间序列预测、自然语言处理等任务。在实际应用中,LSTM和GRU相对于传统的RNN通常表现更好,特别是在处理长序列和复杂任务时。选择使用哪种网络取决于任务的复杂性和数据的特点,通常可以通过实验对比来选择最适合的网络结构。下面总结了一些面试常问的相关面试题,其他系列面经请关注文章底部专栏:小白机器学习面试指南。持续更新中。

简单说一下什么是RNN?

RNN也叫循环神经网络,和传统的全链接神经网络相比,RNN每一层的神经元之间都有连接,同一层的神经元之间共享参数w,对于每一个神经元,对于每一个神经元,它首先会有一个输入x,对于这个输入x,有两步操作,一个是将它输出到下一层,另一步是将它输出到同一层的下一个神经元,会将这一层传来的信息和它这个神经元本身的输入再相加,再执行想同的操作,最后一个神经元输出能表示这个输入,比如一个句子,一篇文章的信息。因为参数共享,所以参数等个数减少了,但是可能会出现梯度消失和梯度爆炸的问题。

RNN为什么会存在梯度消失的问题?

目前优化神经网络的方法都是基于反向传播的思想,即根据损失函数计算的误差通过梯度反向传播的方式,指导深度网络权值的更新优化。在神经网络中,根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话,那么即使这个结果是0.99,在经过足够多层传播之后,误差对输入层的偏导会趋于0。同理,如果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话,在经过足够多层传播之后,误差对输入层的偏导会趋于无穷大。

对于RNN中梯度消失、梯度爆炸的问题,一般有什么解决方法?

答:关于RNN中梯度爆炸和消失问题。下面介绍一些常用的方法来应对这些问题:

  1. 梯度裁剪(Gradient Clipping): 梯度裁剪是一种常用的方法,用于限制梯度的大小,防止梯度爆炸。简单来说,当梯度的范数超过一个预定义的阈值时,就将梯度进行缩放,使其不超过该阈值。这样可以避免梯度增长过快,保持训练的稳定性。

  2. 改进的优化算法: 传统的优化算法(如SGD)可能在处理梯度爆炸和消失时效果不佳。使用一些改进的优化算法,比如RMSprop、Adam等,可以在一定程度上缓解这些问题。这些算法结合了梯度的一阶矩和二阶矩信息,更智能地调整学习率,从而更好地处理梯度问题。

  3. 使用更合适的激活函数: ReLU激活函数在深度网络中非常流行,但它对于解决梯度消失问题并不理想。尝试其他激活函数,如Leaky ReLU、Parametric ReLU、ELU等,可以减轻梯度消失问题,从而更好地训练深层网络。

  4. 使用更复杂的RNN结构: 一些改进的RNN结构,如LSTM(长短期记忆网络)和GRU(门控循环单元),设计用于更好地处理长期依赖和梯度问题。这些结构包含了更复杂的门控机制,可以控制信息的流动,减少梯度消失的可能性。

  5. 注意力机制(Attention Mechanism): 注意力机制可以在处理序列数据时,集中关注更重要的部分,从而降低梯度消失的风险。引入注意力机制可以让模型更加关注和利用输入序列的不同部分信息。

  6. Batch Normalization: 批标准化是一种用于加速训练过程并稳定模型的技术。它可以帮助在每个层上保持激活的均值和方差稳定,从而减少梯度爆炸和消失的可能性。

  7. 更小的学习率: 如果梯度爆炸仍然是一个问题,尝试减小学习率。较小的学习率可以降低梯度爆炸的风险,但同时也可能增加训练时间。

RNN的经典结构有哪些?

答:从输入输出角度来看,有以下这么几种经典的结构: 1对1:输入和输出一致, 1对多:有1对N或N对1,1对N的场景有负荷分解,图像生成文字,类别生成语音或音乐等,N对1针对于序列分类。 多对多:有N对N或N对M,N对N的场景有语音处理,时间序列,N对M的场景是机器翻译,文本摘要,阅读理解等,常见模型是encoder-decoder模型。

RNN对输入长度不一致的文本怎么处理?

RNN(循环神经网络)对输入长度不一致的文本可以通过以下方式进行处理:

  1. 填充(Padding):
    • 在将文本送入RNN之前,可以将文本进行填充,使其达到固定长度。可以在文本的末尾添加特定的填充符号(如空格或特殊标记)来填充文本,使其长度与批量中最长的文本相同。这样可以保持批量数据的维度一致,方便进行批量运算。填充后的部分在RNN计算中通常被忽略,因为填充符号并不携带有意义的信息。
  2. 动态填充:
    • 对于每个批量,可以动态地选择合适的填充长度,使得批量中的文本长度尽量接近。这样可以最大程度地利用数据,同时保持批量维度一致。动态填充可以避免过多的填充符号,减少计算量和内存占用。
  3. 使用遮罩(Masking):
    • 在填充后的文本中,可以使用遮罩来标记填充部分。遮罩是一个与输入文本相同大小的二进制向量,在填充的位置为0,在非填充位置为1。通过遮罩,RNN在计算时可以忽略填充部分的影响,从而有效利用有效文本部分的信息。
  4. 使用变长RNN:
    • 有些RNN的变种模型,如LSTM(长短期记忆网络)和GRU(门控循环单元),能够处理变长的序列数据。这些模型可以直接接受长度不一致的文本作为输入,并且能够自适应地处理不同长度的文本。在使用这些变长RNN时,不需要额外的填充或截断操作,模型会根据实际文本长度来进行计算。

说一下RNN、LSTM、GRU它们是联系?

RNN(循环神经网络): RNN是一种经典的循环结构神经网络。它的主要特点是将前一个时间步的输出作为当前时间步的输入,从而在处理序列数据时引入了时间上的依赖关系。然而,传统的RNN存在梯度消失或梯度爆炸的问题,导致长期依赖关系难以捕捉。

LSTM(长短期记忆网络): LSTM是为了解决传统RNN中的梯度问题而提出的改进型网络。它引入了门控机制,通过遗忘门、输入门和输出门来控制信息的流动,从而有效地捕捉长期依赖关系。LSTM能够在序列数据中保留长期的记忆,适用于处理较长的文本序列和时间序列。

GRU(门控循环单元): GRU是对LSTM的另一种改进型循环神经网络。它简化了LSTM的结构,仅使用了更新门和重置门,使得模型参数较少,计算复杂度较低。GRU在解决长期依赖问题的同时,也表现出较好的性能。

LSTM有哪三个门?作用分别是什么?

答:LSTM具有三个门控单元,分别是:

  1. 输入门(Input Gate): 输入门控制着当前时间步的输入信息中哪些部分将被纳入到当前时间步的细胞状态(cell state)中。输入门通过一个Sigmoid激活函数来决定每个输入的权重,将其缩放到0到1之间的范围。输入门的作用是用于确定更新细胞状态时,要更新多少来自当前时间步输入的信息。

  2. 遗忘门(Forget Gate): 遗忘门控制着前一时间步的细胞状态中哪些信息将被遗忘或丢弃。它通过一个Sigmoid激活函数来决定前一时间步细胞状态中每个元素的权重,将其缩放到0到1之间的范围。遗忘门的作用是用于决定在当前时间步细胞状态更新时,应该保留哪些信息。

  3. 输出门(Output Gate): 输出门控制着当前时间步的细胞状态中哪些信息将被传递到当前时间步的输出。输出门通过一个Sigmoid激活函数来决定细胞状态中每个元素的权重,将其缩放到0到1之间的范围。输出门的作用是用于确定细胞状态中的哪些信息应该被输出。

通过输入门和遗忘门,LSTM能够选择性地更新和遗忘信息,从而保留重要的长期依赖关系。而通过输出门,LSTM能够选择性地输出细胞状态中的信息,产生最终的预测结果或在下一时间步继续传递有用的信息。

手写LSTM公式?

首先,定义一些符号:

  • 输入:当前时间步的输入特征为 x_t
  • 细胞状态(Cell State):c_t 表示当前时间步的细胞状态
  • 隐状态(Hidden State):h_t 表示当前时间步的隐状态(输出)

LSTM的主要计算过程分为三个步骤:遗忘门、输入门和输出门。

  1. 遗忘门(Forget Gate): 遗忘门通过 Sigmoid 激活函数来决定前一时间步的细胞状态 c_{t-1} 中哪些信息将被遗忘。它的计算公式为:
f_t = sigmoid(W_f * [h_{t-1}, x_t] + b_f)
  1. 输入门(Input Gate): 输入门通过 Sigmoid 激活函数来决定当前时间步的输入 x_t 中哪些信息将被加入到细胞状态 c_t 中。同时,使用双曲正切(Tanh)激活函数来计算新的候选细胞状态。
i_t = sigmoid(W_i * [h_{t-1}, x_t] + b_i)

Ĉ_t = tanh(W_c * [h_{t-1}, x_t] + b_c)
  1. 更新细胞状态(Update Cell State): 细胞状态 c_t 通过遗忘门和输入门进行更新:
c_t = f_t * c_{t-1} + i_t * Ĉ_t
  1. 输出门(Output Gate): 输出门通过 Sigmoid 激活函数来决定当前时间步的细胞状态 c_t 中哪些信息将被输出为当前时间步的隐状态 h_t。同时,对细胞状态使用 Tanh 激活函数来计算隐状态。
o_t = sigmoid(W_o * [h_{t-1}, x_t] + b_o)
h_t = o_t * tanh(c_t)

在上述公式中,W_f、W_i、W_c、W_o 表示权重矩阵,b_f、b_i、b_c、b_o 表示偏置向量。[h_{t-1}, x_t] 表示将前一时间步的隐状态 h_{t-1} 和当前时间步的输入特征 x_t 连接起来形成的向量。

为什么LSTM模型中既存在sigmoid又存在tanh两种激活函数,而不是选择统一一种sigmoid或者tanh?这样做的目的是什么?

答:sigmoid函数被用作各个门上,产生0~1之间的值,来判断是对信息进行记住还是遗忘。tanh用在了状态和输出上,是对数据的处理,可以替换成其他激活函数。

LSTM解决了RNN的什么问题?为什么?

答:LSTM解决了传统RNN中的梯度消失和梯度爆炸问题。

传统的RNN在处理长序列数据时存在梯度消失或梯度爆炸问题,主要原因是在反向传播过程中,梯度会随着时间步的增加而指数级地增大或减小。这导致在训练过程中,网络在处理长序列时很难有效传播梯度,导致长期依赖关系难以捕捉。LSTM通过引入门控机制解决了传统RNN中的梯度消失和梯度爆炸问题。

GRU和LSTM的区别?

答:GRU和LSTM都是用于解决长期依赖问题的改进型循环神经网络(RNN)结构。它们在解决长期依赖问题上有相似之处,但也有一些不同点。以下是它们之间的主要区别:

  1. 门控结构不同

    • LSTM具有三个门控:输入门(Input Gate)、遗忘门(Forget Gate)和输出门(Output Gate)。这三个门控通过sigmoid激活函数来控制信息的流动和细胞状态的更新。
    • GRU具有两个门控:重置门(Reset Gate)和更新门(Update Gate)。重置门决定了过去信息在当前时间步的输入中有多少保留,而更新门决定了过去和当前信息在当前时间步的更新中所占的比例。
  2. 参数数量不同

    • GRU的参数较少,因为它合并了LSTM的细胞状态和隐藏状态,并减少了一个门控。这使得GRU在计算上相对更轻量级。
    • LSTM的参数较多,因为它有三个门控,每个门控都有自己的权重和偏置。
  3. 细胞状态更新不同

    • LSTM的细胞状态由遗忘门、输入门和输出门三个门控决定,分别控制了细胞状态的遗忘、增益和输出。
    • GRU的细胞状态由重置门和更新门两个门控决定,重置门控制了过去信息的保留,更新门控制了过去和当前信息的更新。
  4. 计算效率不同

    • 由于参数较少,GRU的计算效率通常高于LSTM,特别是在较大规模的模型或者大规模数据上。
  5. 表现情况不同

    • 在一些任务上,LSTM和GRU的表现可能会有所不同。在某些序列建模任务中,LSTM可能更适合处理长期依赖问题,而在另一些任务中,GRU可能表现得更好。

总的来说,LSTM和GRU都是强大的RNN变种,用于处理序列数据和解决长期依赖问题。

持续更新中

#机器学习面经##LSTM##RNN##GRU#
小白机器学习面试指南 文章被收录于专栏

林小白的机器学习指南,从本人面试的机器学习算法岗位出发,对机器学习“八股文”做详细的介绍、推导;

全部评论
mark
点赞 回复 分享
发布于 02-25 17:57 安徽
mark
点赞 回复 分享
发布于 02-01 14:32 上海
mark
点赞 回复 分享
发布于 2024-09-11 13:31 陕西
mark
点赞 回复 分享
发布于 2024-03-13 23:36 新加坡
MARK
点赞 回复 分享
发布于 2023-09-22 18:14 上海
mark
点赞 回复 分享
发布于 2023-09-08 10:24 天津
mark
点赞 回复 分享
发布于 2023-09-04 17:12 陕西
mark
点赞 回复 分享
发布于 2023-07-28 23:00 安徽
mark
点赞 回复 分享
发布于 2023-07-28 22:10 安徽
mark
点赞 回复 分享
发布于 2023-07-28 12:42 江苏
m
点赞 回复 分享
发布于 2023-07-28 02:26 北京
mark
点赞 回复 分享
发布于 2023-07-26 02:55 江苏

相关推荐

在牛客上了看了好多佬的面经,确实给自己提供了帮助,再次感谢佬们的面经!我把自己面试的经历也分享给牛友,祝大家都拿到自己想要的offer!# 面试复盘## BG双非本+末流211硕+无竞赛+无实习+只有实验室的项目经历## 面经### 腾讯---软开-java#### 一面凉经 3/18​面试官没有开摄像头,maybe是kpi面,这也是我的第一次面试,整体表现巨差无比,给我留下了深深的打击,觉得自己就是个小废物。​上来经典的自我介绍,然后面试官就问我项目中的难点是什么,也没有追问。接下来就是提问环节​Q1:Mysql和Redis的区别?---->个人怎么用的Redis?​Q2:为什么用kafka?---->kafka重复消费怎么解决?​Q3:进程、线程、协程的区别。(我是菜鸡,没有复习到协程,丢死人了。)​Q4:讲一下对策略的理解​Q5:三道算法题:1、字符串相乘 ---->2、LRU---->3、乘积最大子数组(基本都是leetcode上的热门题目,但是我没有写出lru,让我深深的知道自己准备的是有多么的不足了,惨痛的经历,我是菜狗啊啊啊啊啊啊啊)​Q6:TCP和UDP的区别,估计是我回答的逻辑不好,就没有追问了​Q7:三次握手以及其中的细节,比如第二次握手失败会发生什么。然后就没有再问了,哭死,面试官很温柔但奈何不了我太菜了。第一次面试的紧张,我在写代码的时候既然在考虑输入输出,在面试官面前改输入输出的函数,第一次给了鹅,我太不珍惜了。### 快手---软开-java#### 一面凉经 3/19这次的面试官开了摄像头,我回答不上来的还会给我讲解,告诉我答案,在挂掉之后我也没了自信。经典自我介绍开头+项目中的难点。Q1:索引以及一系列的追问,最后出了一道题select * from t where c>0 and b!=1 and d=2;问我如何设计索引。答案是联合索引(d,c,b,a)Q2:乐观锁 和 悲观锁 。CAS的实现原理Q3:内存溢出和资源爆炸,讲一下自己经历过的内存溢出和资源爆炸Q4:kafka如何实现顺序消费还有一些关于日常使用的追问Q5:进程的并发执行问题,以及常用的锁。出了个题,讲一件i++如何实现上锁Q6:websocket如何实现通信,要提到sessionQ7:手撕:n个骰子投出为k的概率。这次面试对我打击巨大,面试官说我基础不好,要加强一下自己对基础知识的理解。也彻底没了自信,坐实了自己菜狗的身份。### 美团 ----软开-数开没错。这次岗位跟之前不太一样,我投错了,就是那么的sb,哎,硬着头皮面的。#### 一面 3/27经典的自我介绍,但是没有问项目中的难点。让我讲了将项目具体是做什么的,我巴拉巴拉的介绍了一遍。然后问我学过sql没,我信誓旦旦的说学过,平常经常用,然后一道sql手撕+算法就来了。sql手撕: employee表,找出只有五个直接下属的经理```sqlSELECT e.nameFROM employee eJOIN employee sub ON e.id = sub.managerIdGROUP BY e.id, e.nameHAVING COUNT(*) >= 5;```算法手撕:划分字符串,尽可能多的划分,同一字母最多出现在同一个片段中然后问了我听过事务没,我说听过,让我讲一下事务的特性。然后就没然后了,就让我反问了,我都感觉是kpi了,惊喜的是第二天发二面通知了。#### 二面 3/31自我介绍,然后上来就说我们考察代码能力的,直接扔出来一道题“K个一组链表翻转”,秒了。然后他看我做的太快,说再来一道吧,“合并区间”依旧秒了,都是hot100的题。然后他说我能把题背下来也是能力,我说我最近在经常刷题。然后就是八股拷打Q1:虚拟内存是什么 虚拟内存的实现 虚拟内存遇到空间不够了怎么办,虚拟内存会把资源存在哪里? 内存不够了怎么办Q2:tcp 如何保证稳定,详细讲一下保证稳定的机制,我讲的是超时重传。syn是什么,有什么用Q3:CAS(没错又问到了cas,这次哥们确实会了)Q4:线程切换Q5:索引,考了我最左匹配原则Q6:聊到了项目,我介绍了项目具体是做什么的,我自己的负责的内容,以及项目中的人员分工Q7:问我为什么选择这个方向,之前没有做过(我不敢说是我选错了,我说出于热爱和好奇,哭死)Q8:聊到了海量数据压缩,我从深度学习和算法的角度分别介绍了一下,没办法撞到了哥们擅长的领域Q8:聊到了AI,讲了讲我是如何使用ai的,以及对ai的看法。ai大势所趋这次面了70分钟左右,最开始我感觉面试官对我是无感的,但是我也尽力的去回答每一个问题,有答的好的答的不好的。面试过程中,面试官说了一句话“你是有自己的理解的。”所以我觉得在面试中还是要尽情的展示一下自己,让面试官感受到你的优点和激情。#### 4/1面试官通知二面结果,后续有人跟我联系#### 4/6号hr电话oc#### 4/9号offer## 感悟运气很重要,但是运气是留给有准备的人的。自己没有把握住鹅厂的面试,痛啊,刻在心里的痛啊。快手的打击让我彻底丧失了自信,陷入自我怀疑,从头又看了一遍八股,牛客上刷面经。java后端开发异常的卷,在面完数据开发之后有着深深的感受,大家在选择职位的时候可以酌情考虑吧。我确实卷不动。个人的简历过不了阿里、字节、蚂蚁、饿了么、京东、oppo、vivo、滴滴、作业帮等等的初筛,连面试都约不上,个人条件确实很有限。美团太好了,我是团孝子,我爱喝开水,我爱说实话。## 建议1、手撕,hoot100必刷,必刷,必刷,重要的事情说三遍。尤其是动态规划,贪心。面试的时候如果是模板题写不出来基本就凉凉了。2、简历上列出来的东西要能和面试官聊下去,面试官会看着简历问问题。3、面试的时候不要紧张,不用因为某个问题回答不上来就毁自己的状态。而是要尽情的展示自己,从思维上,情绪,性格上等等方面,万一有哪个点打动面试官就成了。4、运气是留给有准备的人的,还是要从自身出发,踏实准备,面的越多就会面的越多。5、合理评估自己准备的情况,java软开卷不动就卷数开,测开,前端,程序员是互通的,不要被语言,前后端限制住了,我们具备的是在这个领域如何快速学习的能力,而不是一门java语言学到死。6、八股是枯燥的,在回答八股的时候要用自己的话说出来,最好结合自己做过的项目,而不是背诵,要给面试官一种错觉,这个问题我在项目中思考过,而不是在八股文里背过。7、面试前在牛客上找对应岗位的面经,把面经里的问题都过一遍,最好再做点问题发散。
查看28道真题和解析
点赞 评论 收藏
分享
评论
8
90
分享

创作者周榜

更多
牛客网
牛客企业服务