移动研究院面经
自我介绍
手撕算法
介绍LSTM,有几个门,和GRU以及RNN的区别。
LSTM有输入输出遗忘门,GRU有重置更新门。都是RNN的变体。
LSTM是怎么解决梯度消失问题的?
cell state的加法可以使梯度大于1,逻辑门参数可以一定程度上控制梯度消失。
LSTM和GRU哪个训练得更快?
GRU更快。
transformer的encoder和decoder有什么不同?结构上和任务上。
transformer的decoder为什么要用掩码?
swin transformer的优势。
梯度反向传播的原理。
链式求导得到误差对于各个权重系数的偏导,然后通过梯度下降算法更新权重,从而最小化损失函数。
常用的优化器有哪些?
transformer为什么在大批量数据上表现更好?
自注意力机制和分布式并行训练。
RNN变体有训练瓶颈吗?
有,梯度消失或爆炸。
反问。
部门以及团队情况。
手撕算法
介绍LSTM,有几个门,和GRU以及RNN的区别。
LSTM有输入输出遗忘门,GRU有重置更新门。都是RNN的变体。
LSTM是怎么解决梯度消失问题的?
cell state的加法可以使梯度大于1,逻辑门参数可以一定程度上控制梯度消失。
LSTM和GRU哪个训练得更快?
GRU更快。
transformer的encoder和decoder有什么不同?结构上和任务上。
transformer的decoder为什么要用掩码?
swin transformer的优势。
梯度反向传播的原理。
链式求导得到误差对于各个权重系数的偏导,然后通过梯度下降算法更新权重,从而最小化损失函数。
常用的优化器有哪些?
transformer为什么在大批量数据上表现更好?
自注意力机制和分布式并行训练。
RNN变体有训练瓶颈吗?
有,梯度消失或爆炸。
反问。
部门以及团队情况。
全部评论
大佬你是啥岗位,一面吗
相关推荐