蚂蚁2024暑期实习二面(菜鸡面经)
1. 介绍两个你所做的工作(论文或项目)
2. 针对论文1,你的研究背景是什么?你通过什么方式解决的?(我的主要研究目标是减少图像字幕模型输出的语言偏置现象)
3. 针对语言偏执现象,你的方法的优势是什么(针对于那些在处理数据集上面的方法)
4. 你的提出的模块可能确实有效果上的提升,但是无疑增加了模型的复杂程度,你是否设计了实验证明你的方法确实会比那些在数据集上做处理的方法好(如果没有那你该怎么去设计)
5. 详细介绍Transformer的结构(word embedding, self-attention, cross-attention, multi-head attention, FFN, dropout, layernorm, encoder和decoder的交互)
6. 多头注意力为什么要做多头?有什么好处?请从多个角度去解释:
(不要光说多头注意力可以映射到多个低维子空间可以获取更加丰富的特征以及提高模型的泛化性能)
我还补充了一下两点:由于神经网络的参数可以表示为在高维空间的稀疏矩阵,而高维的稀疏矩阵是可以分解为多个低维的稠密矩阵
如果不采用多头注意力机制的话,万一注意力矩阵中出现了某个极大值,再经过softmax就会使得网络只关注到极大值处的特征,而忽略了其它处的特征。多头注意力机制则可以缓解这个问题,因为将原本的特征拆分成多个头一个,每个样本可以关注到的特征变丰富了,不会因为某个头内的注意力矩阵出现了极大值而忽略了其它特征。(简单点理解就是原本的attention只是一个attention score的计算, 而转换成多头之后变成了多个attention score的叠加,减小了模型的方差,类似于bagging)
7. 关于论文2,你的研究背景是什么,通过什么方式去解决?(我研究的是多模态之间的特征对齐)
8. 你觉得你这个方法的上限在哪里?
9. 你提出的方法是不是会存在失效的情况?
10. 单流模型和双流模型的计算量的差别为多少?
后续记起来的问题会放在评论区更新!!!
(ps:二面都是很开放性的问题,不知道自己回答的怎么样,面试官给的反馈比较中性,无法做出判断 : |
coding:none
#我的实习日记##我的实习求职记录##投递实习岗位前的准备##你觉得今年春招回暖了吗#