NLP & 大模型春招记录
面试基本在两周之内结束掉了,还因为时间冲突推掉了小米和滴滴。
因为秋招春招时看过许多面经,也很感谢那些记录。在这里也分享一下自己面经,许愿oc!!!
- 蔚来多模态(无后续):
2.28 投递
3.5 测评
3.6 一面:
自我介绍
项目介绍
围绕项目,基本问项目细节、实现细节这样,以及“放在现在,你觉得你的项目还有什么优化空间”
八股: llama的架构、diffusion的介绍,采样过程的输入、样本标签不均衡、attention的变种、python的切片
无手撕
- 金山 NLP
2.28 投递
3.2 笔试
3.14 一面
3.19 二面
3.25 hr面
3.27 电话oc
一面 30min:
1、bert、gpt等大模型的架构是什么
2、怎么实现的只看到前面的token
3、decoder-only的mask怎么实现
4、bert还需要mask吗
5、llama的结构
6、前置层归一化的好处是什么?
7、还有什么区别
层归一化函数用的RMSnorm,还有旋转位置编码
8、旋转位置编码的好处是什么
9、项目介绍
10、数据怎么处理的,训练数据输入和输出之间用什么分割符
11、lora和adapter的区别和相同点
12、lora和adapter的在推理时有什么区别
13、用过或了解什么分布式训练
14、llama2和llama的区别
15、无手撕
二面 1h10min:
无八股,基本在聊项目及细节,因为项目涉及VAE在文本上的应用,面试官还让画图展示讲解。
算法:找到数组中最大的k个数,说思路就行(说了最小堆),以及时间复杂度
三面 15min:
简单聊天,当场oc说申请offer,过了两天电话确认base地
- oppo NLP:
2.26 投递
3.9 笔试
3.18 一面
3.20 二面
3.21 hr面
3.29 offer
一面 30min
1、自我介绍+项目介绍
2、bert和gpt的区别
3、bert怎么实现看到上下文的
4、介绍一下qlora
5、介绍promt tuing和其他高效微调方法
6、算法:最长回文子串,说思路(太久没刷题了忘记动态规划、面试官说不一定要用最优解,我就说了个暴力解的思路)
可能有其他八股的问题但是想不起来了
二面 30min
面试官应该是主管,主要是聊天,没怎么问技术,也没有手撕
1、自我介绍+项目介绍
2、了解国内的大模型吗(说了chatglm)
3、chatglm的优化点在哪
4、长度外推现在一般怎么做
5、以往的项目中有没有自己主导的内容
6、有没有遇到过分歧什么的,怎么解决的
7、自己努力去实现目标的事
hr 面 25min
1、自我介绍+一些家常
2、拿到offer了吗
3、求职最看重的三个点
4、求职最反感的是什么
5、如何判断企业价值观与个人价值观匹配呢
6、为什么没有企业实习经历
7、有没有因为预期会损害到他人利益,而十分纠结的经历
8、家人对找工作有无支持
9、最感动的一件事(忘记是不是这个问题了,印象中说的是相关的)
10、反问:培训制度、上班时间(9-19 午休1.5h)
- 三星西安研究所 多模态
3.11 投递
3.15 一面+测评
3.19 入社申请表
一面(3个面试官) 30min:
1、英文自我介绍+项目介绍
2、了解哪些数据结构
3、VAE和diffusion的区别
4、哪个效果好,为什么diffusion效果好
5、VAE生成的图片为什么会模糊
6、大模型的架构等(具体忘了,反正是一两个八股)
7、RAG了解嘛
8、Prompt和Instruction有区别吗
9、了解什么推理部署的方法以及模型量化的方法
10、现在很多工作都是在做数据工程,比如让大模型去生成数据和标签,你是怎么看的?
11、无手撕
- 摩尔线程 NLP
3.5 投递
3.19 一面
3.22 二面
3.26 三面
4.10 HR面
一面 1h
1、自我介绍+项目介绍
2、围绕项目进行提问,如何用大模型对以往的项目进行优化等
3、大模型八股拷打。内容与金山一面差不多,但会问得更细一些,比如一个7b的大模型,在微调过程中adam优化器的内存是模型参数的多少倍?(混合精度训练)
4、分布式训练deepspeed zero的细节
5、RLHF的流程
6、算法题又是topk,但面试官要求用O(n)的时间复杂度,给了提示说用快速排序的思想
7、反问:问面试建议,面试官让好好准备二面
二面 1h 20min
1、自我介绍+拉家常
2、做题(讲思路):像是“盛最多水的容器”与“接雨水”的结合(我哪有吃过这种苦….),我整理了之后描述如下:
给定一个长度为 n 的数组 height 。有 n 条垂线,第 i 条线的两个端点是 (i, 0) 和 (i, height[i]),每条垂线间隔1米。返回这些垂线构成的容器可以存储的最大水量。
做题大概40分钟,跟面试官讨论了3种可行的做法(想出一种前向遍历和后向遍历的解法,但面试官问有无遍历一次的解法,可恶!但面试官提示了双指针)
3、因为算法题做得太慢了,面试官问本科(非科班)有无学过数据结构和算法之类的
4、项目介绍,还能如何优化
5、qlora与lora的区别
6、了解哪些并行方法
7、zero 中有哪些参数会占用gpu显存
8、那activation为什么不做分页(上一问题提到了模型中间输出不需要保存,在反向传播时做重计算)
9、介绍一下llama和llama2
10、llama2中的GQA为何能加快训练速度
11、人生中最值得骄傲的事情
12、论文的分工合作情况
13、面试官花了有5分钟以上介绍摩尔线程现在的业务和发展情况
14、反问:说后续还有技术面才到hr面(饶了我吧!)
三面 1h 20min
1、自我介绍+项目介绍
2、长度外推,要怎么解决
3、文本数据增强有什么做法
4、llama架构
5、llama的参数量(考察是否真的了解每一层的参数)
6、qlora和lora
7、分布式训练
8、张量并行和deepspeed zero的区别
9、手撕:有一个random7函数可以从[1,7]以均匀分布的概率采样一个整数,基于此实现从[1,10]之间以均匀分布的概率采样一个整数
10、python怎么处理高并发(不会)
11、进程和线程的区别
12、线程相比进程的优点(不会)
HR面 10min:
HRBP简单聊天,下周给结果
- 携程 NLP
3.8 投递
3.13 笔试
3.20 一面
3.25 二面
3.29 HR面+英语测评
一面 30min
1、自我介绍+项目
2、bert的attention以及多头注意力机制的作用
3、有哪些高效微调方法
4、长度外推的做法
5、分布式训练的三种并行方法
6、了解推理部署方法吗
7、有接触过后端开发的东西吗
8、手上有offer吗
9、工作地点偏好
10、什么时候毕业
11、之前为什么签管理岗的三方
12、无手撕
13、反问业务
二面 30min
1、自我介绍+项目
2、无八股,无手撕,全程聊项目细节
3、反问没有手撕嘛....
HR面 30min
1、自我介绍
2、每个项目都问了,聚焦遇到的困难,怎么解决的,以及怎么做优化
3、常规的一些hr面问题
4、反问:一周内会有反馈
- 虾皮 机器学习
3.4 投递
3.6 笔试
3.22 一面
3.27 二面
4.9 HR面
4.15 OC
一面 1h
1、自我介绍+拉家常
2、手撕kmeans聚类(因为项目里提到了)
3、给出sigmoid函数,以及一阶导数(求出来了自己觉得好像不对,被面试官说不自信)
4、qlora和lora
5、还有哪些微调方法
6、prompt工程和prompt tuning
7、了解强化学习吗
8、又来一个代码题,给定QKV矩阵,给出多头注意力机制的计算(用tensorflow但我用的pytorch说也可以)
9、attention计算为何要除以dk的平方根
10、一定要除以这个数吗,可以是别的数吗
11、反问业务和不足
二面 1h
1、自我介绍+随便聊聊
2、项目介绍及细节提问
3、数据标签不平衡怎么处理
4、模型训练过程中发生loss震荡怎么办
5、word2vec的两种实现,哪个更好
6、word2vec负采样怎么实现的
7、word2vec的softmax损失和负采样用的损失,本质上是否一样
8、kmeans算法怎么做并行(面试官的引导非常好,让你一步步思考并说出答案)
9、手撕:股票交易1
10、闲聊,面试官说有问题可以加微信找他沟通
HR面 10min:
HRBP简单聊天,offer情况,岗位和地点是否接受,下周给结果
- 万科万物云 算法工程师
3.14 boss上投递
3.16 测评
3.22 一面
一面 25min
1、自我介绍+项目
2、项目遇到的难点和解决办法
3、仍然是常见的大模型微调八股
4、以往项目的分工合作情况
5、拉家常
6、反问业务:物业模型之类的
还有元象科技和联通数科等企业,比较常规,就不记录了。