首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
在线笔面试、雇主品牌宣传
登录
/
注册
追赶太阳的卷王很勇敢
同济大学 算法工程师
发布于上海
关注
已关注
取消关注
mark
@SweetBean:
算法岗常见面试题(八):Transformer
Transformer常见问题与回答总结01 Transformer Encoder 有什么子层?(超参数一面)Encoder由六个相同层构成,每层都有两个子层:多头自注意力层和全连接的前馈神经网络层(Linear+relu+dropout+Linear)。使用残差连接和层归一化连接两个子层。02 写一下self-attention的公式(超参数一面)03 Transformer的优缺点优点:可并行独立于卷积和循环,完全依赖于attention处理全局依赖,解决长距离依赖问题性能强缺点:长度固定局部信息的获取不如RNN和CNN强:Transformer关注的全局关系,而RNN在计算过程中更关注局部,对距离更加敏感。04 Encoder端和Decoder端是如何进行交互的?Cross Self-attention,Decoder提供,Encoder提供。05 Transformer中为什么需要线性变换?分别是输入向量经过不同的线性变换矩阵计算得到。可以从正反两面分析线性变换的必要性:线性变换的好处:在部分,线性变换矩阵将KQ投影到了不同的空间,增加了表达能力(这一原理可以同理SVM中的核函数-将向量映射到高维空间以解决非线性问题),这样计算得到的注意力矩阵的泛化能力更高。不用线性变换的坏处:在部分,如果不做线性变换,即X=Q=K,则会导致注意力矩阵是对称的,即,这样的效果明显是差的,比如“我是一个女孩”这句话,女孩对修饰我的重要性应该要高于我修饰女孩的重要性。06 Transformer attention的注意力矩阵的计算为什么用乘法而不是加法?为了计算更快。加法形式是先加、后tanh、再和V矩阵相乘,相当于一个完整的隐层。在计算复杂度上,乘法和加法理论上的复杂度相似,但是在实践中,乘法可以利用高度优化的矩阵乘法代码(有成熟的加速实现)使得点乘速度更快,空间利用率更高。(论文P4有解释)在较小的时候,加法和乘法形式效果相近。但是随着增大,加法开始显著优于乘法。作者认为,增大导致乘法性能不佳的原因,是极大的点乘值将整个softmax推向梯度平缓区,使得收敛困难。于是选择scale,除。07 Transformer attention计算为什么要在softmax这一步之前除以(7 封私信 / 80 条消息) transformer中的attention为什么scaled? - 知乎 (zhihu.com)取决于Softmax的性质,如果softmax内计算的数过大或者过小,可能导致Softmax后的结果为0,导致梯度消失为什么是。假设Q、K中元素的值分布在[0,1],softmax的计算中,分母涉及了一次对所有位置的求和,整体的分布就会扩大到[0,]。08 Transformer attention计算注意力矩阵的时候如何对padding做mask操作的?padding位置置为-1000,再对注意力矩阵进行相加。09 Transformer的残差结构及意义同resnet,解决梯度消失,防止过拟合10 Transformer为什么使用LN而不是BN?LN是针对每个样本序列进行归一化,没有样本间依赖,对一个序列的不同特征维度进行归一化。CV使用BN是因为认为通道维度的信息对cv方面有重要意义,如果对通道维度也归一化会造成不同通道信息一定的损失。NLP认为句子长短不一,且各batch之间的信息没有什么关系,因此只考虑句子内信息的归一化。11 Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别?/ 为什么decoder自注意力需要进行sequence mask?让输入序列只看到过去的信息,而看不到未来的信息。12 Transformer的并行化体现在哪里,Decoder可以做并行化嘛?Encoder的模块是串行的,但模块内的子模块多头注意力和前馈网络内部都是并行的,因为单词之间没有依赖关系。Decode引入sequence mask就是为了并行化训练,推理过程不并行13 Transformer计算量最大的部分是哪里(超参数二面、海信一面)多头注意力部分计算量最大。假设完成一次推理,(batch-size)=1, (seq-length,序列最大长度)=256, (hidden-size)=768, attention-head=12 经过一个Transformer的多头注意力block,所需要的矩阵乘法的数量:总计:12 * (256 * 64 * 256 + 256 * 256 * 64)= 1亿次乘法除了矩阵乘法的运算外,还有除和函数的运算:除:计算量为=256*256函数:计算量为两个矩阵相乘的计算量: 假设矩阵A尺寸为(m,n),矩阵B尺寸为(n,k),则矩阵M和矩阵N相乘的计算量为m*n*k。权重矩阵K,Q,V的尺寸: 不考虑多头注意力的情况下均为(s,h);多头注意力时,默认12个头,故单头的尺寸为(s,1/12h)。14 Transformer、LSTM和单纯的前馈神经网络比,有哪些提升?LSTM相比于单纯的前馈神经网络,首先具有理解文本的语序关系的能力(RNN)。除此之外,又解决了RNN在处理长序列时发生的梯度消失和梯度爆炸的问题。Transformer进一步解决了RNN、LSTM等模型的长距离依赖问题,能够理解更长的上下文语义。可以并行化,所要的训练时间更短。15 Transformer处理篇章级的长文本的变体Transformer变体层出不穷,它们都长什么样? (qq.com)16 有哪些处理超长文本的方法(超参数二面)HIERARCHICAL基于BERT的超长文本分类模型_valleria的博客-CSDN博客_长文本分类基本思想:对数据进行有重叠的分割,这样分割之后的每句句子直接仍保留了一定的关联信息。模型由两部分构成,第一部分是fine-tune后的BERT,第二部分是由LSTM+FC层组成的混合模型。即,BERT只用来提取出句子的表示,而真正在做分类的是LSTM+FC部分。具体流程:首先将长句子分割为多个小句子,如长200,重叠长度为50.将分割后的数据集传入BERT,分别取每个句子的[CLS]表示句子的embedding,将来自相同长句子的embedding拼接,作为长句子的向量表示。最后,将长句子的向量表示传入LSTM+FC部分进行分类。除此之外,第二部分还可以用Transformer。由于都是从notion笔记里面复制过来的,所以可能存在公式缺失之类的问题,欢迎指出~由于是个人笔记,可能有错误之处,欢迎指正~
点赞 29
评论 3
全部评论
推荐
最新
楼层
还没有回复哦~
相关推荐
03-07 23:53
香港大学 推荐算法
饿了么笔试 饿了么笔试题 0307
笔试时间:2025年03月07 春招实习历史笔试传送门:2023秋招笔试合集第一题 题目:小红的字符串小红拿到了一个01串s。她将进行恰好一次以下操 作:选择下标i,j(i≠j),交换si和sj。小红想知道,不同的操作方案,最终能生成多少不 同的字符串?输入描述一个仅由'0'和"1'构成的字符串。字符串长度不小于2,不大于200000。输出描述一个整数,代表最终的方案数。样例输入1100样例输出5说明:共有以下5种不同字符串:交换第一个和第二个字符,形成1100交换第二个和第三个字符,形成1010交换第二个和第四个字符,形成1001交换第一个和第三个字符,形成0110交换第一个和第四...
投递饿了么等公司10个岗位 >
2024 BAT笔试合集
饿了么求职进展汇总
点赞
评论
收藏
分享
03-12 14:03
顺丰集团_运营_HR
顺丰内推——3月hc
别再总是刷半天牛客不知所措,不如投一份简历!干就有答案!春招该海投就海投除非咱是清华北大之类的,再有点竞赛奖、好项目、大厂实习,你可能胜券在握,那也没啥毛病,基本上就是看自己要什么。不然的话就还是看到什么招聘信息就先投着,等我们拿到offer再反选呗,毕竟竞争真的挺激烈的。我当时好像大大小小的公司一共投了100多家,最终综合考量选了去哪儿,现在看确实选对了,行业的一股清流公司,平台不错技术实力业界又认可,人文关怀也特别强,在如此大环境下别的公司都在减免福利,我们还在增加,从今年7月起,允许每周两天可以居家办公,像刚哥说的:“努力工作的本质是为了更好地生活。”真正工作了才会知道在这样的公司有多幸...
投递顺丰集团等公司10个岗位 >
点赞
评论
收藏
分享
03-05 17:11
重庆理工大学 电路设计工程师
找工作没有方向😥
双非本科电子信息工程专业在校没参过赛,也没有得过奖学金,四六级不过目前不知道能找什么工作了,重庆这就业环境也就这样了,感觉还是应该校招的时候进厂啊😭
点赞
评论
收藏
分享
02-01 17:22
齐齐哈尔工程学院 C++
可能是学历有点硬伤,想求下大佬们的指导
神哥了不得:
(非引流)先把你的个人信息打码一下吧,看了几万份的简历,让我不知道该怎么说
点赞
评论
收藏
分享
03-08 14:56
腾讯_大数据高性能开发(准入职员工)
腾讯内推腾讯面经
腾讯 微信后端 一二三面面经由于一二三面都是同一周进行的(具体业务部门暂不和牛友说啦),所以当时也没时间进行回顾,现在进行简要的回顾,不一定详细但尽可能把大致方向说一下一面:写题+八股写题为一个给个文档,用IDE写完了粘贴进去。(题量不少2-3题左右,限时半小时,但无难题)八股:以计算机网络和操作系统为主,穿插问问一些实际的问题主要是:TCP 握手挥手,网络IO模型之类的,CPP的部分简单问题等,大家在牛客上都见过,都是常规的问题,实际的问题就是问Linux的一些命令和实际场景下怎么组合使用二面:写题+项目同样起手一个文档,写题(都不是难题)项目深入的聊,整体流程,为什么这么设计,为什么不使用...
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
26届腾讯QQ暑期实习后台开发一面面经
6.3W
2
...
双非本+GAP+考研二战,天天走“岔路”的我怎么逆袭?
8875
3
...
字节暑期oc
7355
4
...
网易云音乐-日常实习一二面
6768
5
...
今天mentor和老登在会议室吵起来了!!
6473
6
...
小米java一面
6280
7
...
腾讯pcg面经
6177
8
...
校招末班车 双非上岸985研跨专业拿大厂offer
6036
9
...
lastday,跟mentor表白了
5956
10
...
北漂往事之被房东欺压的那一年
5560
创作者周榜
更多
正在热议
更多
#
打工人的精神状态
#
21497次浏览
333人参与
#
两会劳动法放大招
#
4908次浏览
172人参与
#
腾讯音乐26届实习
#
104367次浏览
627人参与
#
牛友故事会
#
133570次浏览
2266人参与
#
你小时候最想从事什么职业
#
72859次浏览
1369人参与
#
技术岗笔试题求解
#
11395次浏览
100人参与
#
腾讯2025实习生招聘
#
12406次浏览
545人参与
#
新凯来求职进展汇总
#
11485次浏览
61人参与
#
携程求职进展汇总
#
171032次浏览
1131人参与
#
实习/项目/竞赛奖项,哪个对找工作更重要?
#
42578次浏览
572人参与
#
签了三方后想毁约怎么办
#
25170次浏览
144人参与
#
2023毕业生求职有问必答
#
147761次浏览
1457人参与
#
东风汽车求职进展汇总
#
11808次浏览
73人参与
#
韶音科技求职进展汇总
#
44194次浏览
465人参与
#
正在春招的你,也参与了去年秋招吗?
#
232711次浏览
2237人参与
#
你投递的公司有几家约面了?
#
47588次浏览
285人参与
#
许愿池
#
249257次浏览
2672人参与
#
听到哪句话就代表面试稳了or挂了?
#
113091次浏览
1022人参与
#
生物制药人求职现状
#
12555次浏览
110人参与
#
秋招想进国企该如何准备
#
43592次浏览
338人参与
#
牛客租房专区
#
43577次浏览
695人参与
#
网易求职进展汇总
#
68934次浏览
533人参与
牛客网
牛客企业服务