找不到实习的大摆子 level
获赞
931
粉丝
578
关注
3
看过 TA
1.1W
北京大学
2025
自然语言处理
IP属地:北京
暂未填写个人简介
私信
关注
投的是算法工程 算法工程岗位。做的是 Ai infra。实际上是做大模型推理加速训练加速之类的优化框架, 没啥经验。1. 自我介绍2. 介绍一下自己第二段实习遇到的难点(就从算法和工程两块随便说了一点)3.C++指针和引用的区别4.STL 常用吗? map 的具体实现懂吗?(红黑树,不过用 umap 更多,哈希表)5.那你介绍一下哈希表的常用实现方式。(就讲了一下拉链法, 桶,重哈希啥的)6. 智能指针了解吗? 介绍一下7. 右值引用知道吗?移动语义介绍一下。8.transformer 的结构了解吗?介绍一下9.有了解过大模型的并行优化方式吗?(随便讲了一下模型并行 数据并行 流水线并行)10.那我现在一个 gpu 都放不下一层怎么办?(张量并行)11.那你知道张量并行怎么设计吗?就是矩阵之类的怎么拆?(这个不太了解了)12. deepspeed 和 megatronLM 有了解吗?(不太了解其实,只用过,什么 3D 并行13.flash attention 有了解吗?(大概讲了一下 QKV 中间状态不保存, 后向重新计算, 还有 softmax 分块计算)代码题字符串反转 to be or not to be 反转成 be to not or be to整体而言不难,但是主要是整体问的都比较底层和框架一点,其实都不太了解, 不知道面试官咋看。
0 点赞 评论 收藏
分享
这次面的是工程院 bing 团队的 LLM 应用组,问的问题量不大,有一些比较开放性的问题比较有意思。1.自我介绍 两面都有2. 主要会根据项目做一些介绍,这个一面久,二面短一些。3. 一面问了 transformer 结构4. 有没有做过大模型之外的 NLP 相关的内容(简单讲了讲)二面的开放性问题5. 做 rag 应用的时候, 如果幻觉问题严重怎么办?比如已经给了很多 rag 召回的内容了,但是还是错误很多,尤其是一些时间数字类的信息,很容易不准确。(我回答:类似于指令微调,构造对应的数据集, 微调强化大模型对检索的内容的跟随能力)6.接着上面,那你觉得这种数据集怎么构造呢? 检索的内容和问题很好弄,但是答案怎么获取方便?(我: 我觉得可以反向构造,我先从网络上爬一堆内容作为答案,比如把新闻里的一些信息作为答案,然后让大模型比如 gpt4 生成对应的问题, 再检索召回相关的内容,构造数据集。 面试官说这个想法还挺有意思的)7. 我想通过加噪声的方式提高模型的鲁棒性, 你觉得这个噪声应该怎么加好? 或者说怎么确定加在 token 的什么位置,加什么 token?(不太懂,我就说从我一般的理解,加噪声都是从 embedding 去加的, 比如随机加一些高斯噪声提高鲁棒性)8.如果我做 rag 召回的相关内容里,会有人恶意注入了一些错误的信息, 你觉得会影响大模型的生成内容吗?怎么避免?(我认为肯定会有影响, 因为关注的信息有错。 我觉得可以提高召回的信息量, 从而稀释错误信息占比来解决)9.接着上面的回答, 我们的输入长度有限制,不能无限加召回的内容怎么办?(可以在检索召回链路中再加一层,类似于粗排后再精排一次,从而减少错误信息的量)其他的不记得了,就是感觉现在面试很喜欢问一些开放性问题。代码题一面编辑距离, 二面是一个有序数组左边平移一定位置后的数组,找到一个 target 的下标。都不算难。
球球offer到:微软 北京 算是你校的大本营哈哈哈 占比不小
0 点赞 评论 收藏
分享
1.自我介绍2.抓着项目的一些问面试官喜欢问从顶层的实验设计的一些东西我的实验为什么要选用 cos 距离或者 mse?能不能用 KL散度?是不能用还是不好用?KL 散度和交叉熵的区别和联系是什么?(都是我没考虑过的问题 有点汗流浃背)既然你用到了那么多微调方式, 那你有什么实验过程中探究了 lora 的比如 秩之类的参数的影响吗?prompt tuning  ptuning v2 有啥区别?(说完他觉得我说的太八股太宏观了,又讲了一堆原理)为什么 p v 2 比 prefix tuning 要减去那个 lstm 和 linear? 我说论文里说适配 NLG 任务,好像记错了。有没有接触过强化学习?为什么你们只考虑微调,是因为啥原因?你是用几张卡跑实验?多大参数的模型?跑的时候内存占用量多大?有没有试过全量微调? 那你想一下,假如我用 deepspeed 的几种版本, 全量微调7B 模型,内存占用多大?最后大概的意思就是说他比较看重实验最初的一些设计能力, 不能蹬 OOM 再来解决。让我之后要多理解一下 deepspeed。说社招看的多这些理解能力。反正基本上就是项目围绕讲。 后面说我项目做的,工程应该能力不错。 代码题也是那种很简单的处理数据。
0 点赞 评论 收藏
分享
张卓澎:大佬 亚马逊2月份投的一直没消息
0 点赞 评论 收藏
分享
有点搞笑,用他们那个奇怪的会议软件,捣鼓了半天音频。然后问的内容和一面也完全不一样, 也都不是我简历的侧重点。1.自我介绍2.你用 python 怎么实现并发?(蚌, 用的是组里封装的,我也不知道是什么,也没背过 py go 的面经,随便扯了一下)3. go 和 py 并发有什么区别(不知道不了解,随便说了一下协程)4. clickhouse 和其他的一些数据库啥区别(不懂,只会用 瞎说了一下开发的时候怎么选什么数据库)意识到我不会之后,问我我熟悉什么。我说我熟悉 Cpp 的一些底层知识, 大模型主要是算法相关的一些内容。go py 主要就是作为开发 web 工具,实习里也不可能了解那么多原理。然后开始问大模型相关。。。。5. 你有写过调度器吗(我:调度器是什么?)6. 那你有用过 gpt 的代码编辑器吗?(我:啊?copilot 么?没有了解过,后面查了才知道,应该也是一种应用。)7.问我懂不懂容器,k8s 之类的这个时候我已经不想面了。。。我就说,这些东西我两段实习和项目都没有接触过,都不会。然后开始说:我不知道咱们这个岗位的需求是什么, 一面的时候也没问过这些东西,和他沟通业务当时可能也没太清楚。 所以也没准备这些知识点, 确实是有一些准备不佳。如果不匹配的话也没事。他就问我有什么反问的吗? 我说我一般都会反问业务的具体内容,一面也问了。但是我看好像可能不是很合适的样子,如果这个岗位确实需要那些东西,我也不会, 也没必要问太多了。他问我为什么不投算法,我说我投的是算法,HR 建议我投这个后端,我说也可以。然后问我之前是面过一面了吗?我说是。他说那他和老板说一下这个情况。
0 点赞 评论 收藏
分享
被拷打了一个半小时, 感觉也寄了。1.自我介绍2. 针对字节的实习,问我 flask 和 go 的 gin 框架的体验和区别(我黑人问号,以为走错了,不记得了,随便说了几句。3.你熟悉 C++,说一下堆和栈的区别4.数据结构中堆栈队列介绍一下。5. 拷打第二份实习大模型的具体内容, 主要还是我介绍。6. 你知道预训练的一些并行方式吗?(说没接触过预训练, 大概讲了一下知道的两种常用并行,就是数据并行和模型并行解释了一下)7.你知道预训练的数据应该怎么预处理吗?(没懂,我说针对质量进行过滤吧?8.换句话说, 如果我不需要对所有的数据都训练,只需要对每一部分有权重的取数据怎么做?(我:最暴力的方法就是每一块都按比重选一定数量再用于训练)你这个是离线方式,我在线想要调试各种方式怎么做?(我:随机数然后映射到对应的数据去随机取?)9.你知道 Llama 用了多少 token 数据训练吗?(我 这真没记)10. 你知道 flask attention 吗?(没用过,不知道原理,只知道这个东西存在。。11.那你知道 flask attention 能有多大的性能提升吗? 不知道12. 你知道最早的 attention 做机器翻译,它的注意力怎么得的吗?(不记得,瞎说一通)13. 这个 attention 和 self attention 的 QKV 怎么来的?(attention 应该是初始化的吧?巴拉巴拉瞎说14. 有了解过最近那些超长文本大模型的预训练吗?(没有了解具体原理,但是应该就是加大数据训练长度, 用外推更好的位置嵌入吧?)15. 你说到外推性,那你了解常见的提高外推能力的方式吗?(主要还是位置编码吧? 给他讲解了一下 ALIBI 这个方式)16 讲一下你对旋转位置编码的理解。17 位置和注意力分数的曲线是什么样子的呢?(一条向上的抛物线,位置越远注意力越小)18. 这个曲线会不会和三角函数一样呢?(我觉得如果是用 Transformer 原本的位置嵌入可能会吧。。。。其他的应该不会?)19 回到我们刚刚说的数据处理, 你能不能用代码实现一下看看?(自己电脑没装 Python  pytorch,就用 Cpp 写,简单写了个逻辑, 随机数有点问题,也跑不通,大概说了一下方式)在写个反转链表反问:
Sherloque:老哥现在开发和大模型岗位投递意向是五五开吗?
0 点赞 评论 收藏
分享
03-11 19:31
已编辑
北京大学 自然语言处理
1. 自我介绍2.做算法题两个整数,修改二进制位使得二者相同要多少次修改?给两个不限制大小的数字,求乘法。三数之和,求最接近 target 的和。代码题写的很差,给了 45 分钟,第一个题只考虑了正整数。。用了异或,第二个题没理解清楚,用了 int 64, 是给 string。 第三个题双指针没啥难度。最后写了一道半, 面试官给我时间重写第二题和第一题,也没改完,就讲了一下思路。3. 拷打字节实习内容(汗流浃背)4. 稍微问了一下蚂蚁的算法实习内容5. 介绍一下虚拟内存6.直接 new 一个 1GB 大小的数组怎么实现的, 还是说虚拟地址7.不用虚拟地址,只用物理地址不可以吗?8. 两个线程可以同时读写一个文件吗?可以同时读吗?不会出现读一半的情况吗?9.拷打 webserver 项目。为什么用 epoll, proactor 和 reactor 有啥区别?双链表实现心跳机制是什么?介绍一下。 用 vector 不行吗?10.看到你简历说熟悉 TCP 协议, 为什么 TCP 要三次握手,两次不行吗?反问:对我的评价:代码题不理解要及时问, 基础还可以, 但是字节的实习体现了工作量,没体现技术难点。有没有后续: 不能保证, 只能往上反馈结果, 如果有下一轮面试可能快的话这周,慢的话两周。
许愿一个顺利的2024:摆大,加上这么多实习经历,怎么可能叫凉经
0 点赞 评论 收藏
分享
关注他的用户也关注了:
牛客网
牛客企业服务