纠结的变色龙躺平又起来了 level
获赞
180
粉丝
46
关注
5
看过 TA
1357
浙江大学
2025
自然语言处理
IP属地:天津
暂未填写个人简介
私信
关注
还记得一年前和学院的学长学姐一起打球时听过他们的抱怨,“秋招需要暑期实习经历,暑期实习需要日常实习经历,现在就连日常实习也需要其他实习经历了”。从那时我就有危机意识,早早开始准备起了秋招,而现在一年多下来,秋招在我看来时一点点的努力+大部分的狗运。一点点的努力是必要的,你要去背那些八股,去理解哪些专业的原理。但学习这东西完全没有极限的,你背了几天lora的八股,自以为对lora这个东西很懂了,然后你看了苏剑林详细解读lora的博客,瞬间变成一个新兵蛋子。你这边刚跑起来deepspeed,别人已经开始猛干Megatron了。尽人事,在自己可以把控的极限内把该懂得知识搞懂。大部分的狗运反而才是关键,准备秋招的过程就是无数选择的叠加,选择就业方向、选择是否偷跑实习、选择实习的单位和部门,实习的部门水平不行选择是否提前跑路,大量的选择就是在大量的“赌”,你永远不知道下一块是巧克力还是其他某种物质。个人所能做的就是保持头脑清醒的去判断每次选择带来的利害关系。个人能做的就是保持好的心态面对生活吧。18岁的时候觉得高考没考好,世界就崩塌了;22岁的时候觉得考研没考好,世界就崩塌了;24岁的时候觉得秋招没找到好的工作,世界就崩塌了。可事实证明,世界哪一次都没有崩塌。life goes on#25届秋招总结#
0 点赞 评论 收藏
分享
11-27 17:41
已编辑
浙江大学 自然语言处理
2024-09-25(字节跳动第一面,dy搜索部门一面)秒过2024-09-29(字节跳动第二面,dy搜索部门二面)秒过2024-10-15(字节跳动第三面,dy搜索部门三面)大部门老板面,开局迟到20分钟,中间带着困意和我面试20分钟后,面试结束,但是等了两周才等到下一轮面试。2024-10-29(字节跳动第四面,dy搜索部门四面)说是大部门的领导把我的简历给到了一个小部门的老板那里,小部门老板对我再进行一轮面试,面完秒挂,说是方向不匹配。2024-10-30 和dy搜索的hr对接,怒喷他们中间长时间不约面,总长一个月的面试流程最后把我挂掉了,要求流转简历。2024-11-04的上午 流转到另外一个tt的变现部门,hr说一共四面,鉴于我之前表现好可以省一面。2024-11-04的下午 hr突然告诉我面试终止,因为hr在和业务leader沟通减少面试时,业务leader说我的方向不匹配,简历再次流转。(字节跳动第五面,dy广告部门一面) 胎死腹中。2024-11-07 (字节跳动第六面,AML ToB 广告部门一面)本人处于面麻了的状态,基本就是在和面试官宣泄,不理解做算法的方向性会有这么严格的限制,整体面试表现没问题,但和面试官沟通后,还是因为不匹配结束了这次的流程。2024-11-12 (字节跳动第七面,dy业务线一面)秒过2024-11-14 (字节跳动第八面,dy业务线二面)秒过2024-11-19 (字节跳动第九面,dy业务线三面)面完后过了一周左右约hr面。至此字节耐面记结束,目前字节已经拿下。#字节求职进展汇总##面试中的破防瞬间##牛客创作赏金赛##如何判断面试是否凉了##字节##面经#
0 点赞 评论 收藏
分享
具体是做大模型训练套件的中台组,所以很考察涉及大模型内部计算的细节。1.自我介绍2.手撕 和最大的连续子序列3 写一个多头注意力 reshape transpose4 为什么要使用多头注意力 更多的qkv嵌入更好的表达能力5 单头注意力和多头注意力计算量比较。多头略多一些,具体应该是多在多头注意力concat之后的又一次线性变换上。这题当时没答对。6 为什么使用gqa,gqa的好处有啥。略微减少参数量,均衡性能并减少kv cache的压力。7 为什么是kv cache 而不是qv cache。我理解是,如果是qv cache,这东西能算的注意力是最后一列而不是最后一行,这种计算甚至是反因果系统这个前提的,我感觉我的解释有道理,但面试官不满意,可能有更好的答案。8 lora具体为什么能减少计算过程中的显存占用,具体减少在那部分上了?我认为权重和前向过程中的激活值在加上lora之后,整体也不会少太多,那么少的只能是来自梯度和优化器状态,其中大头是优化器状态。9 拷打Megatron中的张量并行都存在哪些地方,具体如何做张量并行,当时没太完全看透Megatron(虽然现在也没看透),所以这题直接爆炸了。10 具体来说Megatron在transformers中的张量并行,可以发生在mlp,attention,embedding,cross entropy这几块。在mlp上,存在一个因为非线性变换,而对两个矩阵乘中的右侧矩阵列split,左侧矩阵不切的方式进行并行,减少一个同步点。attention中的并行主要是对头并行。embedding和cross entropy中这是要减少vocab这个超大纬度给计算带来的压力,做vocab纬度的张量并行。11 见我Megatron 张量并行打的不是很好,可能是想引导一下,面试官问我长文本训练中,需要算loss的token很多,怎么缓解这个过程的计算压力,我觉得他当时想引导我讲cross entropy的张量并行的,但我当时没想到。反问 很套路的了解部门业务结果 面完秒挂 😭 #如何判断面试是否凉了# #百度求职进展汇总# #互联网没坑了,还能去哪里?#
0 点赞 评论 收藏
分享
关注他的用户也关注了:
牛客网
牛客企业服务