移动研究院面经

自我介绍
手撕算法
介绍LSTM,有几个门,和GRU以及RNN的区别。
LSTM有输入输出遗忘门,GRU有重置更新门。都是RNN的变体。
LSTM是怎么解决梯度消失问题的?
cell state的加法可以使梯度大于1,逻辑门参数可以一定程度上控制梯度消失。
LSTM和GRU哪个训练得更快?
GRU更快。
transformer的encoder和decoder有什么不同?结构上和任务上。
transformer的decoder为什么要用掩码?
swin transformer的优势。
梯度反向传播的原理。
链式求导得到误差对于各个权重系数的偏导,然后通过梯度下降算法更新权重,从而最小化损失函数。
常用的优化器有哪些?
transformer为什么在大批量数据上表现更好?
自注意力机制和分布式并行训练。
RNN变体有训练瓶颈吗?
有,梯度消失或爆炸。

反问。
部门以及团队情况。

全部评论
大佬你是啥岗位,一面吗
1 回复 分享
发布于 11-18 16:17 江苏

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务