纠结的变色龙躺平又起来了 level
获赞
159
粉丝
42
关注
5
看过 TA
1255
浙江大学
2025
自然语言处理
IP属地:天津
暂未填写个人简介
私信
关注
具体是做大模型训练套件的中台组,所以很考察涉及大模型内部计算的细节。1.自我介绍2.手撕 和最大的连续子序列3 写一个多头注意力 reshape transpose4 为什么要使用多头注意力 更多的qkv嵌入更好的表达能力5 单头注意力和多头注意力计算量比较。多头略多一些,具体应该是多在多头注意力concat之后的又一次线性变换上。这题当时没答对。6 为什么使用gqa,gqa的好处有啥。略微减少参数量,均衡性能并减少kv cache的压力。7 为什么是kv cache 而不是qv cache。我理解是,如果是qv cache,这东西能算的注意力是最后一列而不是最后一行,这种计算甚至是反因果系统这个前提的,我感觉我的解释有道理,但面试官不满意,可能有更好的答案。8 lora具体为什么能减少计算过程中的显存占用,具体减少在那部分上了?我认为权重和前向过程中的激活值在加上lora之后,整体也不会少太多,那么少的只能是来自梯度和优化器状态,其中大头是优化器状态。9 拷打Megatron中的张量并行都存在哪些地方,具体如何做张量并行,当时没太完全看透Megatron(虽然现在也没看透),所以这题直接爆炸了。10 具体来说Megatron在transformers中的张量并行,可以发生在mlp,attention,embedding,cross entropy这几块。在mlp上,存在一个因为非线性变换,而对两个矩阵乘中的右侧矩阵列split,左侧矩阵不切的方式进行并行,减少一个同步点。attention中的并行主要是对头并行。embedding和cross entropy中这是要减少vocab这个超大纬度给计算带来的压力,做vocab纬度的张量并行。11 见我Megatron 张量并行打的不是很好,可能是想引导一下,面试官问我长文本训练中,需要算loss的token很多,怎么缓解这个过程的计算压力,我觉得他当时想引导我讲cross entropy的张量并行的,但我当时没想到。反问 很套路的了解部门业务结果 面完秒挂 😭 #如何判断面试是否凉了# #百度求职进展汇总# #互联网没坑了,还能去哪里?#
0 点赞 评论 收藏
分享
08-16 20:23
已编辑
浙江大学 自然语言处理
提前批 非star岗位类型:推荐方向llm算法一面:自我介绍。聊项目。无八股。手撕是一个滑动窗口 有些小细节没写对 但最后还是给过了。二面:自我介绍然后紧接伪代码手撕多头注意力,撕完面试官说rms和残差链接呢?我说这个一般不在多头注意力这个类里面写,又给他写了一下transformersblock里面forward的伪代码。紧急八股,rms和一般layer norm的区别。layer norm和batch norm的区别,为什么大模型中一般用layer norm然后是手撕,先给了一道dp,乘积最大的子数组,这题刷了好几遍,可以秒。但我怕面试官认为我太会,故意沉思了一段时间,才和他说了一下思路,然后秒了。可能是上一道题沉思的不够久,写得还是太快了,面试官又给了道点积最大的子数组,一开始不太会,思考了一下还是dp,转移思路和编辑距离类似,就写出来了。三面自我介绍。简单介绍自己做的项目。一个智力题,去掉大小王的扑克牌,随机抽五张,自由选择盖下一张展示四张,和同伙设计一种出老千的方式,使得同伙可以猜出盖牌。分颜色和点数两纬度出老千,颜色这块一开始想复杂了,在讨论各种情况,然后面试官点了一下我,抽五张牌,必有相同的两花色。点数上,面试官提示可以定义花色和点数的排序规则,展示的四张牌,一张同花色作为点数的锚点,其他三张可以根据排序规则被标记为1 2 3,1~3排列出6种情况,对应6中差值,把1~13的范围想成进制,则可以cover住任何差值。聊人生,聊对大模型的理解,聊之后想做的方向。 #快手# #快手秋招正式启动啦# #快手求职进展汇总# #秋招提前批启动你开冲了吗# #秋招# #快手提前批#
三七互娱校招部HR_主页内推:非Srar也这么难
0 点赞 评论 收藏
分享
关注他的用户也关注了:
牛客网
牛客企业服务