百度 自然与语言处理 二面凉经

具体是做大模型训练套件的中台组,所以很考察涉及大模型内部计算的细节。

1.自我介绍
2.手撕 和最大的连续子序列
3 写一个多头注意力 reshape transpose
4 为什么要使用多头注意力 更多的qkv嵌入更好的表达能力
5 单头注意力和多头注意力计算量比较。多头略多一些,具体应该是多在多头注意力concat之后的又一次线性变换上。这题当时没答对。
6 为什么使用gqa,gqa的好处有啥。略微减少参数量,均衡性能并减少kv cache的压力。
7 为什么是kv cache 而不是qv cache。我理解是,如果是qv cache,这东西能算的注意力是最后一列而不是最后一行,这种计算甚至是反因果系统这个前提的,我感觉我的解释有道理,但面试官不满意,可能有更好的答案。
8 lora具体为什么能减少计算过程中的显存占用,具体减少在那部分上了?我认为权重和前向过程中的激活值在加上lora之后,整体也不会少太多,那么少的只能是来自梯度和优化器状态,其中大头是优化器状态。
9 拷打Megatron中的张量并行都存在哪些地方,具体如何做张量并行,当时没太完全看透Megatron(虽然现在也没看透),所以这题直接爆炸了。
10 具体来说Megatron在transformers中的张量并行,可以发生在mlp,attention,embedding,cross entropy这几块。在mlp上,存在一个因为非线性变换,而对两个矩阵乘中的右侧矩阵列split,左侧矩阵不切的方式进行并行,减少一个同步点。attention中的并行主要是对头并行。embedding和cross entropy中这是要减少vocab这个超大纬度给计算带来的压力,做vocab纬度的张量并行。
11 见我Megatron 张量并行打的不是很好,可能是想引导一下,面试官问我长文本训练中,需要算loss的token很多,怎么缓解这个过程的计算压力,我觉得他当时想引导我讲cross entropy的张量并行的,但我当时没想到。

反问 很套路的了解部门业务

结果 面完秒挂 😭

#如何判断面试是否凉了# #百度求职进展汇总# #互联网没坑了,还能去哪里?#
全部评论
问的很细节
点赞 回复 分享
发布于 2024-09-10 10:55 北京
问的好难啊
点赞 回复 分享
发布于 2024-09-10 12:55 陕西
7 下一个token是q,存qv cache没用。8 考虑全精度,少梯度,优化器一阶,二阶和activation 另外佬对3D和4D并行有啥经验分享吗,不知道有没有模板分法
点赞 回复 分享
发布于 2024-09-14 07:05 北京
同二面挂,应该是同一个组
点赞 回复 分享
发布于 2024-09-15 22:40 江苏

相关推荐

03-02 21:09
门头沟学院 Java
点赞 评论 收藏
分享
字节跳动 售前 25 x 16
点赞 评论 收藏
分享
百度 前端实习 250/天 研究生
点赞 评论 收藏
分享
虾皮,今天三面(两轮技术面+hr面)速通。据说今天是面试专场,所以才推这么快。react百度,上周三一面已过,下周才开始二面。vue纠结的点在于:1. 虾皮今早二面组长面说react偏多,我说之前学过react,写过demo,了解基础使用,问我是否能跟上进度(我也不知道他为什么要这么问,感觉像是要劝退我,但又给我过)另外,纠结虾皮title足不足够(因为考虑后续秋招);还有一个是,我问氛围咋样,两轮面试官都说很好,不会pua,但是二面面试官给我的感觉就是很严肃,到后面才有说有笑,很怕进去由于转react一时间看不懂他们的高难度代码而被职场“霸凌”2. 百度,技术栈是vue(个人vue比react熟悉),部门负责的业务涉及到node,挺好奇里面node是怎么玩的,但没有百分百信心拿下二三面二者都是日常,虾皮面试官说不太清楚暑期实习生和日常实习生,但表现好能转正;百度上次忘了问其他的:小鹅通已拒(最可惜的,因为之前小鹅通没过,这次是来报仇的。但和面试官聊到业务比较核心,可惜了,时间点不对),蔚来、好未来都推掉了;美团一面后没结果,多半挂了(据说美团培养制度、业内认可度不错,血亏)还有一些没开始的面试…不知道是要就此停止还是接着面牛友们出出主意 #26届暑期实习#  #前端#  #虾皮求职进展汇总#  #暑期#
投递虾皮信息等公司10个岗位 虾皮求职进展汇总
点赞 评论 收藏
分享
评论
6
29
分享

创作者周榜

更多
牛客网
牛客企业服务