纠结的变色龙躺平又起来了 - 个人主页动态

2024-12-13 16:35

还记得一年前和学院的学长学姐一起打球时听过他们的抱怨，“秋招需要暑期实习经历，暑期实习需要日常实习经历，现在就连日常实习也需要其他实习经历了”。从那时我就有危机意识，早早开始准备起了秋招，而现在一年多下来，秋招在我看来时一点点的努力+大部分的狗运。一点点的努力是必要的，你要去背那些八股，去理解哪些专业的原理。但学习这东西完全没有极限的，你背了几天lora的八股，自以为对lora这个东西很懂了，然后你看了苏剑林详细解读lora的博客，瞬间变成一个新兵蛋子。你这边刚跑起来deepspeed，别人已经开始猛干Megatron了。尽人事，在自己可以把控的极限内把该懂得知识搞懂。大部分的狗运反而才是关键，准备秋招的过程就是无数选择的叠加，选择就业方向、选择是否偷跑实习、选择实习的单位和部门，实习的部门水平不行选择是否提前跑路，大量的选择就是在大量的“赌”，你永远不知道下一块是巧克力还是其他某种物质。个人所能做的就是保持头脑清醒的去判断每次选择带来的利害关系。个人能做的就是保持好的心态面对生活吧。18岁的时候觉得高考没考好，世界就崩塌了；22岁的时候觉得考研没考好，世界就崩塌了；24岁的时候觉得秋招没找到好的工作，世界就崩塌了。可事实证明，世界哪一次都没有崩塌。life goes on#25届秋招总结#

25届秋招总结

0 点赞评论收藏

2024-11-27 17:41

已编辑

浙江大学自然语言处理

字节耐面记

2024-09-25（字节跳动第一面，dy搜索部门一面）秒过2024-09-29（字节跳动第二面，dy搜索部门二面）秒过2024-10-15（字节跳动第三面，dy搜索部门三面）大部门老板面，开局迟到20分钟，中间带着困意和我面试20分钟后，面试结束，但是等了两周才等到下一轮面试。2024-10-29（字节跳动第四面，dy搜索部门四面）说是大部门的领导把我的简历给到了一个小部门的老板那里，小部门老板对我再进行一轮面试，面完秒挂，说是方向不匹配。2024-10-30 和dy搜索的hr对接，怒喷他们中间长时间不约面，总长一个月的面试流程最后把我挂掉了，要求流转简历。2024-11-04的上午 流转到另外一个tt的变现部门，hr说一共四面，鉴于我之前表现好可以省一面。2024-11-04的下午 hr突然告诉我面试终止，因为hr在和业务leader沟通减少面试时，业务leader说我的方向不匹配，简历再次流转。（字节跳动第五面，dy广告部门一面） 胎死腹中。2024-11-07 （字节跳动第六面，AML ToB 广告部门一面）本人处于面麻了的状态，基本就是在和面试官宣泄，不理解做算法的方向性会有这么严格的限制，整体面试表现没问题，但和面试官沟通后，还是因为不匹配结束了这次的流程。2024-11-12 （字节跳动第七面，dy业务线一面）秒过2024-11-14 （字节跳动第八面，dy业务线二面）秒过2024-11-19 （字节跳动第九面，dy业务线三面）面完后过了一周左右约hr面。至此字节耐面记结束，目前字节已经拿下。#字节求职进展汇总##面试中的破防瞬间##牛客创作赏金赛##如何判断面试是否凉了##字节##面经#

字节求职进展汇总面试中的破防瞬间

0 点赞评论收藏

2024-11-20 18:03

浙江大学自然语言处理

字节算法工程师二、三面（个人8、9面）

这两面相对第一面（个人第7面）能挖的东西感觉更少了，面试大部分在围着我的项目聊，八股基本涉及的特别少。2024/11/14（二面）1. 自我介绍2. 聊项目3.手撕，一个二维矩阵相乘4.手撕，根据输入建立一个树结构，需要处理错误情况（一个节点指定了一个不存在的节点作为他的父结点）5.自注意力的N平方复杂度体现在哪块？6.推理加速的方法？7. kv cache是什么，为什么要使用kv cache，kv cache的大小和哪些东西相关？2024/11/19（三面）1.自我介绍2.手撕，互动窗口内的最大值，用队列解。3.折回来聊项目，基本上简历上写的项目全聊了一边。下面是一堆八股，因为这个团队不仅要做算法还要做开发，因此有很多开发的八股，我都不会😅4.tcp怎么保证可靠传输5.从输入一个网站url到浏览器解析出前端页面的全过程。6.关系型数据库和非关系型数据库之间的区别。7.内存里堆和栈的区别。8.常用的激活函数。9.讲一下transformer里的自注意力机制。二面、三面秒过，已约hr面。 #字节# #字节求职进展汇总# #字节复活赛# #秋招OC许愿# #秋招# #算法# #面经# #字节面经#

查看14道真题和解析字节求职进展汇总秋招OC许愿

0 点赞评论收藏

2024-11-14 17:39

浙江大学自然语言处理

字节跳动算法工程师一面（个人第7面）

2024/11/081.自我介绍2.围绕项目提问手撕题:3.如何使用rand5来实现rand74.实现一个多头注意力机制。大模型八股:5.注意力计算时，为什么需要除以缩放系数？6.具体到多头注意力的计算中，掩码是如何加入的？（加性掩码，负无穷表示masked，0表示不masked）7.全参数微调和lora的区别8.LSTM和transformer的区别，transformer的优势？9.deepspeed的zero1，zero2和zero3都是什么？10. deepspeed和Megatron之间的差异是什么？11.为什么大量使用decoder而不是encoder？已过，已约二面。#字节求职进展汇总##字节复活赛##字节##哪个瞬间让你对大厂祛魅了？#

查看11道真题和解析字节求职进展汇总哪个瞬间让你对大厂祛魅了？

0 点赞评论收藏

2024-11-01 15:51

浙江大学自然语言处理

感谢字节让我学到一个新词。

四面完了来一句过了但是方向不匹配，真是既要又要啊，不想要我把我拖到四面才挂，又想拿我刷面试kpi说我面评很好还能继续面，真是有范。

0 点赞评论收藏

浙江大学自然语言处理

@纠结的变色龙躺平又起来了：美团大模型算法工程师配送一面（附带吐槽）

0 点赞评论收藏

2024-10-14 13:47

浙江大学自然语言处理

元象大模型二面&hr面

二面（10.9）全程无八股，无手撕，重点聊项目。1.自我介绍2.展开讲讲jd的项目中，具体是怎么做的。3.jd项目中，数据的形式，如何获取的，CoT数据如何让构建。4.jd项目中模型融合方法是什么吗？5.简单介绍模型融合方法的流程6.模型融合中的参数设置有什么经验或者理论吗？（没有，硬搜）7. jd项目中训练的模型，相比之前有多大的提升，使用72B模型比7B模型有多大提升。8.bd项目里的数据如何获得。9.bd项目里使用了lora进行微调，没尝试其他方法吗？（没有，因为我跑路了，不知道他们后面干没干）hr面（10.14）1.开局自我介绍2.喜欢什么样的工作氛围3.研究生成绩大概在班里排什么位置4.家里是哪的，对南方的生活是否接受5.找工作时，三个优先考虑的因素，并给出这三个因素的序6.三段实习经历，哪段对你成长最大7实习过程中遇到过什么低谷，你是怎么解决的 #秋招# #秋招OC许愿# #秋招积极心态保持方法# #如何一边实习一边秋招# #实习与准备秋招该如何平衡# #你的秋招进行到哪一步了# #你觉得今年秋招难吗# #你的秋招进展怎么样了# #算法面试分享# #算法面试经验分享# #算法面试题#

秋招OC许愿如何一边实习一边秋招

0 点赞评论收藏

2024-10-11 13:54

浙江大学自然语言处理

选择更重要

要是当初找工作的方向定成了开发而不是算法，那我估计早废了，开发那么多八股，背不了一点😇#选择和努力，哪个更重要？#

选择和努力，哪个更重要？

0 点赞评论收藏

2024-10-09 13:15

已编辑

浙江大学自然语言处理

9.28元象大模型一面

1.手撕，数组压缩成字符串存在至少三个连续的数字可以压缩成“A-B”的形式，例如11，12，13可以压缩成“11-13”。2.自我介绍3.聊实习的项目反问1.面试的组主要是做什么方向的。答，预训练。2.公司算力资源是否丰富。答，主要靠买云服务训练，卡数会随着公司发展和实际情况波动。已过，节后约二面。 #秋招# #秋招OC许愿# #秋招积极心态保持方法#

秋招OC许愿

0 点赞评论收藏

2024-09-27 08:11

已编辑

浙江大学自然语言处理

#假如你的老板掉河里，你的工作能为他做什么# 用老板生前的语料训练数字生命，我要给老板完整的一生。

假如你的老板掉河里，你的工作能为他做什么

0 点赞评论收藏

2024-09-24 16:00

浙江大学自然语言处理

不是哥们

现在的公司真的想找算法工程师吗？很多公司投完简历秒挂，或者是笔试完简历秒挂，连个面试的机会都没有。和这些公司相比起来，我甚至觉得那些kpi一面挂的公司都变得眉清目秀了起来，起码他们还愿意提供一个和面试官交流的机会。交流的机会都不给，笔试完就挂，搁着搜集大量代码数据用于代码模型呢？

不想0offer：浙大✌️

0 点赞评论收藏

2024-09-10 08:11

浙江大学自然语言处理

百度自然与语言处理二面凉经

具体是做大模型训练套件的中台组，所以很考察涉及大模型内部计算的细节。1.自我介绍2.手撕 和最大的连续子序列3 写一个多头注意力 reshape transpose4 为什么要使用多头注意力 更多的qkv嵌入更好的表达能力5 单头注意力和多头注意力计算量比较。多头略多一些，具体应该是多在多头注意力concat之后的又一次线性变换上。这题当时没答对。6 为什么使用gqa，gqa的好处有啥。略微减少参数量，均衡性能并减少kv cache的压力。7 为什么是kv cache 而不是qv cache。我理解是，如果是qv cache，这东西能算的注意力是最后一列而不是最后一行，这种计算甚至是反因果系统这个前提的，我感觉我的解释有道理，但面试官不满意，可能有更好的答案。8 lora具体为什么能减少计算过程中的显存占用，具体减少在那部分上了？我认为权重和前向过程中的激活值在加上lora之后，整体也不会少太多，那么少的只能是来自梯度和优化器状态，其中大头是优化器状态。9 拷打Megatron中的张量并行都存在哪些地方，具体如何做张量并行，当时没太完全看透Megatron（虽然现在也没看透），所以这题直接爆炸了。10 具体来说Megatron在transformers中的张量并行，可以发生在mlp，attention，embedding，cross entropy这几块。在mlp上，存在一个因为非线性变换，而对两个矩阵乘中的右侧矩阵列split，左侧矩阵不切的方式进行并行，减少一个同步点。attention中的并行主要是对头并行。embedding和cross entropy中这是要减少vocab这个超大纬度给计算带来的压力，做vocab纬度的张量并行。11 见我Megatron 张量并行打的不是很好，可能是想引导一下，面试官问我长文本训练中，需要算loss的token很多，怎么缓解这个过程的计算压力，我觉得他当时想引导我讲cross entropy的张量并行的，但我当时没想到。反问 很套路的了解部门业务结果 面完秒挂 😭 #如何判断面试是否凉了# #百度求职进展汇总# #互联网没坑了，还能去哪里？#

百度二面343人在聊

查看11道真题和解析如何判断面试是否凉了

0 点赞评论收藏

2024-09-04 00:42

浙江大学自然语言处理

美团大模型算法工程师配送一面（附带吐槽）

8.28 美团一面 纯纯的搞笑面前言：本来美团的面经不该在这个时间点来写的，我也并不想写，因为这面经写出来没有丝毫的价值，本该着手去写的已挂的百度二面面经，但在我看到我的美团校招流程变成回到人才库时，我必须写点什么吐槽这件事。1.自我介绍2.看我的简历里面没有学校的经历，为什么？（学校的经历和求职的需求百分之百不符合）3.看我许久以前的简历是找java的，为什么改了？（礼貌的回答了）4.让我选一个项目聊，我选了目前实习做的项目，大语言模型做类似判别的任务。5.我这个项目的场景下，大模型的输入是啥？我回答是文字。6.大模型的输出是啥？我回答也是文字。7.这个loss是怎么计算的？我回答，toke...

牛客118640860号：可能遇到同一个面试官了，同岗位，也是配送算法团队，手撕也一样。面试中就感觉不太像是NLP科班的，甚至有些我解释过的问题像是没认真听一样还会再问一遍，最后流程过了快一周才挂，浪费时间。

查看10道真题和解析牛客解忧铺美团求职进展汇总

0 点赞评论收藏

2024-09-02 18:12

浙江大学自然语言处理

百度又寄

我tm真的是嘴贱啊，Megatron这个框架我还没刻在dna里就敢在做中台的面试官面前拽，我tm是真嫌自己死的不够快。我发现了，我就是这样的人，我就需要一个面试官狠狠地秒杀我，让我进入血怒状态，才能把东西学明白。不说了，看源码去了。 #百度求职进展汇总#

百度求职进展汇总

0 点赞评论收藏

2024-08-28 12:15

已编辑

浙江大学自然语言处理

百度提前批一面

不知道到底是提前批还是正式批 面呗一面（8.26）1.自我介绍2.讲项目里的focal loss，为什么要使用，好处有哪些，focal loss最初用于解决什么问题。3.讲项目里提到的kto，他和dpo的区别，相比dpo的优势。4.讲给苹果贡献的dora和lora的区别，dora为什么看起来更好5.手撕自注意力6.softmax的公式7.softmax有个改进版（除掉最大值），写出公式，为什么要这么改进。8.llama2相对llama1改进，三大块，rms、rope、silu9.group query attention 为什么这么设计。10.手撕 三数之和 hot100老演员了 秒了。反问：是做中台的部门，做一些训练组件之类的东西。一面是个小姐姐，感觉压力不是很大。 #百度# #百度求职进展汇总# #百度秋招提前批进度# #百度秋招提前批# #百度进度交流汇总# #百度2025校招# #百度提前批进度交流#

百度一面531人在聊

查看20道真题和解析百度求职进展汇总

0 点赞评论收藏

创作者周榜

关注他的用户也关注了：