纠结的变色龙躺平又起来了 - 个人主页动态

昨天 18:03

这两面相对第一面（个人第7面）能挖的东西感觉更少了，面试大部分在围着我的项目聊，八股基本涉及的特别少。2024/11/14（二面）1. 自我介绍2. 聊项目3.手撕，一个二维矩阵相乘4.手撕，根据输入建立一个树结构，需要处理错误情况（一个节点指定了一个不存在的节点作为他的父结点）5.自注意力的N平方复杂度体现在哪块？6.推理加速的方法？7. kv cache是什么，为什么要使用kv cache，kv cache的大小和哪些东西相关？2024/11/19（三面）1.自我介绍2.手撕，互动窗口内的最大值，用队列解。3.折回来聊项目，基本上简历上写的项目全聊了一边。下面是一堆八股，因为这个团队不仅要做算法还要做开发，因此有很多开发的八股，我都不会😅4.tcp怎么保证可靠传输5.从输入一个网站url到浏览器解析出前端页面的全过程。6.关系型数据库和非关系型数据库之间的区别。7.内存里堆和栈的区别。8.常用的激活函数。9.讲一下transformer里的自注意力机制。二面、三面秒过，已约hr面。 #字节# #字节求职进展汇总# #字节复活赛# #秋招OC许愿# #秋招# #算法# #面经# #字节面经#

查看14道真题和解析字节求职进展汇总秋招OC许愿

0 点赞评论收藏

11-14 17:39

浙江大学自然语言处理

字节跳动算法工程师一面（个人第7面）

2024/11/081.自我介绍2.围绕项目提问手撕题:3.如何使用rand5来实现rand74.实现一个多头注意力机制。大模型八股:5.注意力计算时，为什么需要除以缩放系数？6.具体到多头注意力的计算中，掩码是如何加入的？（加性掩码，负无穷表示masked，0表示不masked）7.全参数微调和lora的区别8.LSTM和transformer的区别，transformer的优势？9.deepspeed的zero1，zero2和zero3都是什么？10. deepspeed和Megatron之间的差异是什么？11.为什么大量使用decoder而不是encoder？已过，已约二面。#字节求职进展汇总##字节复活赛##字节##哪个瞬间让你对大厂祛魅了？#

查看11道真题和解析字节求职进展汇总哪个瞬间让你对大厂祛魅了？

0 点赞评论收藏

11-01 15:51

浙江大学自然语言处理

感谢字节让我学到一个新词。

四面完了来一句过了但是方向不匹配，真是既要又要啊，不想要我把我拖到四面才挂，又想拿我刷面试kpi说我面评很好还能继续面，真是有范。

0 点赞评论收藏

浙江大学自然语言处理

@纠结的变色龙躺平又起来了：美团大模型算法工程师配送一面（附带吐槽）

0 点赞评论收藏

10-14 13:47

浙江大学自然语言处理

元象大模型二面&hr面

二面（10.9）全程无八股，无手撕，重点聊项目。1.自我介绍2.展开讲讲jd的项目中，具体是怎么做的。3.jd项目中，数据的形式，如何获取的，CoT数据如何让构建。4.jd项目中模型融合方法是什么吗？5.简单介绍模型融合方法的流程6.模型融合中的参数设置有什么经验或者理论吗？（没有，硬搜）7. jd项目中训练的模型，相比之前有多大的提升，使用72B模型比7B模型有多大提升。8.bd项目里的数据如何获得。9.bd项目里使用了lora进行微调，没尝试其他方法吗？（没有，因为我跑路了，不知道他们后面干没干）hr面（10.14）1.开局自我介绍2.喜欢什么样的工作氛围3.研究生成绩大概在班里排什么位置4.家里是哪的，对南方的生活是否接受5.找工作时，三个优先考虑的因素，并给出这三个因素的序6.三段实习经历，哪段对你成长最大7实习过程中遇到过什么低谷，你是怎么解决的 #秋招# #秋招OC许愿# #秋招积极心态保持方法# #如何一边实习一边秋招# #实习与准备秋招该如何平衡# #你的秋招进行到哪一步了# #你觉得今年秋招难吗# #你的秋招进展怎么样了# #算法面试分享# #算法面试经验分享# #算法面试题#

秋招OC许愿如何一边实习一边秋招

0 点赞评论收藏

10-11 13:54

浙江大学自然语言处理

选择更重要

要是当初找工作的方向定成了开发而不是算法，那我估计早废了，开发那么多八股，背不了一点😇#选择和努力，哪个更重要？#

选择和努力，哪个更重要？

0 点赞评论收藏

10-09 13:15

已编辑

浙江大学自然语言处理

9.28元象大模型一面

1.手撕，数组压缩成字符串存在至少三个连续的数字可以压缩成“A-B”的形式，例如11，12，13可以压缩成“11-13”。2.自我介绍3.聊实习的项目反问1.面试的组主要是做什么方向的。答，预训练。2.公司算力资源是否丰富。答，主要靠买云服务训练，卡数会随着公司发展和实际情况波动。已过，节后约二面。 #秋招# #秋招OC许愿# #秋招积极心态保持方法#

秋招OC许愿

0 点赞评论收藏

09-27 08:11

已编辑

浙江大学自然语言处理

#假如你的老板掉河里，你的工作能为他做什么# 用老板生前的语料训练数字生命，我要给老板完整的一生。

假如你的老板掉河里，你的工作能为他做什么

0 点赞评论收藏

09-24 16:00

浙江大学自然语言处理

不是哥们

现在的公司真的想找算法工程师吗？很多公司投完简历秒挂，或者是笔试完简历秒挂，连个面试的机会都没有。和这些公司相比起来，我甚至觉得那些kpi一面挂的公司都变得眉清目秀了起来，起码他们还愿意提供一个和面试官交流的机会。交流的机会都不给，笔试完就挂，搁着搜集大量代码数据用于代码模型呢？

不想0offer：浙大✌️

0 点赞评论收藏

09-10 08:11

浙江大学自然语言处理

百度自然与语言处理二面凉经

具体是做大模型训练套件的中台组，所以很考察涉及大模型内部计算的细节。1.自我介绍2.手撕 和最大的连续子序列3 写一个多头注意力 reshape transpose4 为什么要使用多头注意力 更多的qkv嵌入更好的表达能力5 单头注意力和多头注意力计算量比较。多头略多一些，具体应该是多在多头注意力concat之后的又一次线性变换上。这题当时没答对。6 为什么使用gqa，gqa的好处有啥。略微减少参数量，均衡性能并减少kv cache的压力。7 为什么是kv cache 而不是qv cache。我理解是，如果是qv cache，这东西能算的注意力是最后一列而不是最后一行，这种计算甚至是反因果系统这个前提的，我感觉我的解释有道理，但面试官不满意，可能有更好的答案。8 lora具体为什么能减少计算过程中的显存占用，具体减少在那部分上了？我认为权重和前向过程中的激活值在加上lora之后，整体也不会少太多，那么少的只能是来自梯度和优化器状态，其中大头是优化器状态。9 拷打Megatron中的张量并行都存在哪些地方，具体如何做张量并行，当时没太完全看透Megatron（虽然现在也没看透），所以这题直接爆炸了。10 具体来说Megatron在transformers中的张量并行，可以发生在mlp，attention，embedding，cross entropy这几块。在mlp上，存在一个因为非线性变换，而对两个矩阵乘中的右侧矩阵列split，左侧矩阵不切的方式进行并行，减少一个同步点。attention中的并行主要是对头并行。embedding和cross entropy中这是要减少vocab这个超大纬度给计算带来的压力，做vocab纬度的张量并行。11 见我Megatron 张量并行打的不是很好，可能是想引导一下，面试官问我长文本训练中，需要算loss的token很多，怎么缓解这个过程的计算压力，我觉得他当时想引导我讲cross entropy的张量并行的，但我当时没想到。反问 很套路的了解部门业务结果 面完秒挂 😭 #如何判断面试是否凉了# #百度求职进展汇总# #互联网没坑了，还能去哪里？#

百度二面324人在聊

查看11道真题和解析如何判断面试是否凉了

0 点赞评论收藏

09-04 00:42

浙江大学自然语言处理

美团大模型算法工程师配送一面（附带吐槽）

8.28 美团一面 纯纯的搞笑面前言：本来美团的面经不该在这个时间点来写的，我也并不想写，因为这面经写出来没有丝毫的价值，本该着手去写的已挂的百度二面面经，但在我看到我的美团校招流程变成回到人才库时，我必须写点什么吐槽这件事。1.自我介绍2.看我的简历里面没有学校的经历，为什么？（学校的经历和求职的需求百分之百不符合）3.看我许久以前的简历是找java的，为什么改了？（礼貌的回答了）4.让我选一个项目聊，我选了目前实习做的项目，大语言模型做类似判别的任务。5.我这个项目的场景下，大模型的输入是啥？我回答是文字。6.大模型的输出是啥？我回答也是文字。7.这个loss是怎么计算的？我回答，toke...

牛客118640860号：可能遇到同一个面试官了，同岗位，也是配送算法团队，手撕也一样。面试中就感觉不太像是NLP科班的，甚至有些我解释过的问题像是没认真听一样还会再问一遍，最后流程过了快一周才挂，浪费时间。

查看10道真题和解析牛客解忧铺美团求职进展汇总

0 点赞评论收藏

09-02 18:12

浙江大学自然语言处理

百度又寄

我tm真的是嘴贱啊，Megatron这个框架我还没刻在dna里就敢在做中台的面试官面前拽，我tm是真嫌自己死的不够快。我发现了，我就是这样的人，我就需要一个面试官狠狠地秒杀我，让我进入血怒状态，才能把东西学明白。不说了，看源码去了。 #百度求职进展汇总#

百度求职进展汇总

0 点赞评论收藏

08-28 12:15

已编辑

浙江大学自然语言处理

百度提前批一面

不知道到底是提前批还是正式批 面呗一面（8.26）1.自我介绍2.讲项目里的focal loss，为什么要使用，好处有哪些，focal loss最初用于解决什么问题。3.讲项目里提到的kto，他和dpo的区别，相比dpo的优势。4.讲给苹果贡献的dora和lora的区别，dora为什么看起来更好5.手撕自注意力6.softmax的公式7.softmax有个改进版（除掉最大值），写出公式，为什么要这么改进。8.llama2相对llama1改进，三大块，rms、rope、silu9.group query attention 为什么这么设计。10.手撕 三数之和 hot100老演员了 秒了。反问：是做中台的部门，做一些训练组件之类的东西。一面是个小姐姐，感觉压力不是很大。 #百度# #百度求职进展汇总# #百度秋招提前批进度# #百度秋招提前批# #百度进度交流汇总# #百度2025校招# #百度提前批进度交流#

百度一面521人在聊

查看20道真题和解析百度求职进展汇总

0 点赞评论收藏

08-16 20:23

已编辑

浙江大学自然语言处理

快手提前批

三七互娱校招部HR_主页内推：非Srar也这么难

查看6道真题和解析快手求职进展汇总秋招提前批启动你开冲了吗

0 点赞评论收藏

07-26 09:24

已编辑

浙江大学自然语言处理

百度提前批凉凉

j73421一面（1h）自我介绍聊项目sft过程中的遗忘问题怎么解决transformers相比cnn、rnn的优势在哪。手撕全排列一面完第二天hr约二面二面（50min）面试官开局迟到20min自我介绍聊项目pretrain、sft、偏好对齐这三块有啥区别手撕 无向图上存在多个节点，给定连边关系，类似于找岛屿。二面完两天没动静，然后就挂了。 #百度求职进展汇总# #百度秋招提前批进度# 题都答了，手撕也撕出来了，可能和他们做的不匹配吧。哈哈，寄😇

百度二面324人在聊

查看7道真题和解析百度求职进展汇总

0 点赞评论收藏

关注他的用户也关注了：