移动研究院面经

自我介绍
手撕算法
介绍LSTM,有几个门,和GRU以及RNN的区别。
LSTM有输入输出遗忘门,GRU有重置更新门。都是RNN的变体。
LSTM是怎么解决梯度消失问题的?
cell state的加法可以使梯度大于1,逻辑门参数可以一定程度上控制梯度消失。
LSTM和GRU哪个训练得更快?
GRU更快。
transformer的encoder和decoder有什么不同?结构上和任务上。
transformer的decoder为什么要用掩码?
swin transformer的优势。
梯度反向传播的原理。
链式求导得到误差对于各个权重系数的偏导,然后通过梯度下降算法更新权重,从而最小化损失函数。
常用的优化器有哪些?
transformer为什么在大批量数据上表现更好?
自注意力机制和分布式并行训练。
RNN变体有训练瓶颈吗?
有,梯度消失或爆炸。

反问。
部门以及团队情况。

全部评论
大佬你是啥岗位,一面吗
1 回复 分享
发布于 2024-11-18 16:17 江苏

相关推荐

2024.12.23(一面)一面 (1h 5mins)- 实习拷打  - 快手-评论模版留存率(10 mins)    - 严格漏斗和非严格漏斗的区别  - 字节-链路改造优化    - 延伸:数据的时效性怎么保证(从整体和单点分别叙述)    - 延伸:优化任务的思路    - 延伸:并行度相关的改法(三种)    - repartition()能改变第一个stage的shuffle write的并行度吗?    - 第一个stage的shuffle write的并行度由什么决定?  - 字节怎么分的数据域  - 字节分了哪些主题域  - 数据域和主题域的区别(主题域:自上向下,从分析的角度划分)  - 分层的意义(复用性和一致性)  - 怎么考虑分层,该分多少层(直接说了没必要在意这个,要理解分层的本质,面试官表明说的也有道理,也抛了另一个观点:肯定要分层,需要有不同粒度的数据,每个人在意数据都不同,比如说老板在意汇总层的数据,数分可能更在意明细层的数据,另外,在做归因分析的时候也需要血缘追踪)- SQL题二面 (26 mins)全程实习拷打- 自我介绍- 字节实习  - 多机房代码一致性怎么保证的(治理存量,增量通过oceanus)  - 多机房涉及到的网络问题(通过全球化数据迁移解决)- 快手实习  - 评论模版留存率    - 严格漏斗和非严格漏斗的区别(准确性和计算量之间的取舍)    - 为什么这样设计    - 最终的目的是什么    - 有没有想过通过抽样解决数据量大的问题- 反问
查看18道真题和解析
点赞 评论 收藏
分享
评论
2
7
分享

创作者周榜

更多
牛客网
牛客企业服务