找不到实习的大摆子 level
获赞
931
粉丝
578
关注
3
看过 TA
1.1W
北京大学
2025
自然语言处理
IP属地:北京
暂未填写个人简介
私信
关注
凉透了啊,主要是基础的机器学习知识不会。。。1.自我介绍2.实习介绍3.实习经历提问如果有一个无限长文本的大模型,和一个有限长带知识库 rag 的大模型,你怎么利用他们解决长记忆?调 prompt 过程有哪些问题?prompt 样本多了效果变差你理解是什么原因?简单介绍一下 peft 微调和他们的优缺点。peft 训练的时候有没有注意他们训练的时间长短比较?你觉得你这个对齐用 RLHF 会不会更好一点?其他的忘记了尴尬的开始了,面试官硬要问我机器学习 hh(这个毕竟不是一直做算法,很多基础课都很差)先问 cos 距离和欧式距离是否是同步增和减?(会不会出现一个增另一个减的问题。我没推出来)面试官:你这下去看看,这是 rag 向量检索的基础。写了个代码题字典数面试官:还是要问点机器学习的。。。交叉熵公式写一下(慌了,好几个月都没复习这个了🥲,真记不起来,反正各种提示也不记得,寄)面试官:这种基础的都能忘记啊?那你再讲讲 self attention 的计算的流程啥的,中间的维度,softmax 对行还是对列?(这块应该没啥问题)面试官:再问点什么机器学习的呢?交叉熵都不记得了,看看你简历有啥。(思考了一会)算了,就到这里吧,你看看你有啥要问的。这个时候面试已经一个半小时了😭😭代码题后及时结束多好。。还是要回去复习基础知识了。心碎啊
找不到实习的大摆子:意难平啊家人们,这个 cos 和欧式距离一个是角度一个长度怎么可能同步。。。当时没太明白。 loss 确实是高频考点。 机器学习那些比较基础的八股还是一定要会,虽然一般可能用不到。
查看14道真题和解析
0 点赞 评论 收藏
分享
不得不说快手的面试体验是真好,不会让我很压力。大模型一面挂了,没想到被这个捞了。面试官不会问我没接触的,还是很好的。1. 自我介绍 2.实习简单介绍了一下他们是做安全的,就先问了很多安全的知识3.实习中,安全对齐现在是怎么做的4. 安全数据你们是怎么构造的5. 开放场景题(现在快手有一些视频图片文本等帖子,底下评论很多可能设计 sq zz 等安全问题, 如果是你,你会怎么去设计来解决这个安全问题?)(我: 情感分析  实体信息抽取  主题分类  模型微调 xxxx 随便大杂烩)6. 讲到了一下 DPO,就问 PPO 和 DPO 有什么区别?(奖励模型优化了)7. 你觉得 DPO 训练,可能会出现什么问题?问了问我做没做过 CV,没有。 后面问集中在transformer,估计是他 CV 做的多。8. transformer 的结构整体介绍一下7. 位置编码介绍一下?为什么 ROPE 等相对位置编码会有比较好的外推性?(瞎讲)8. 讲一下 BatchNorm 和 LayerNorm。为什么 transformer 是 LayerNorm?9. 是 Post 还是 PreNorm? 这两个有什么优缺点?(我说反了。。。Pre 更训练稳定,Post 更性能好。。面试官还问我,是哪个更稳定?我还搞反了。。。)10. 两个 Norm 都需要 warm up 吗?(第一次被问这个,之前完全没看过,如实说了)11. 后面就问了 attention K Q V 怎么来的? decoder 第二个的 K Q V 来源12. 训练和推理的时候的不同,会不会有影响?(就是如果推理预测的第一个 token 不一样,会不会错误累计?)后面还问了一些啥忘记了,代码题路径之和 3面了一个半小时,代码题搞得稍微久了点, 提问一个小时。
RZ_Q:绝对位置编码长度外推会出现训练没见过的位置编码,相对编码很关注相对距离,长度外推的时候,推出去的token和length内的token还是有相对位置见过的?(感觉好像也没细想过这个问题,一般只知道绝对位置不好外推😂
查看14道真题和解析
0 点赞 评论 收藏
分享
很无语,面的很红温, 但是也还是有很多自己认为需要补进的地方。BOSS HR 跟我说是 NLP,实际上他说是什么预测什么的,文本也是一种。1.自我介绍(后面打断,让我选一个有趣的项目讲)2.项目介绍(我就讲了第一个内容,觉得我说太多了, 问:你们没有什么模型训练或者优化 loss 的地方吗)3. 我讲我们有很多 SFT 的工作(loss 有优化吗? 大哥,我们就做个文本对齐, 优化什么 Loss 啊都是一套流程下来的)然后就不再问我的项目4.介绍一下 KL 散度,交叉熵(这是我的问题,现在基本都没看这种不那么相关的八股了,问的太少了,公式根本记不住)5.他:你们训练模型怎么公式会不知道。。(我内心:怎么会记住,我又不做这种科研)6.最大似然估计,无偏估计讲一下(愣住, 考研我肯定会,但是现在我怎么讲得清楚,就凭借记忆瞎说)-----接下来开始问 transformer ,我以为能进一下舒适区--------1.讲一下 encoder 结构(刚讲到 embedding,他问,这和embedding 有什么关系。。。我佛了,就好像没理解我的意思)然后他让我用文档随便写一下,不然他跟不上我。2. WQ WK WV 什么维度,维度要一样吗(我也是结结巴巴,推理了一下)3.计算完 attention 之后呢?(我:concat 再 leaner,他:不是,这之前还有啥,我:啊?他可能是理解的是后面 multi head 之后的 leaner,我说那还有 add and Norm)4.那你讲讲 batchNorm 和 LayerNorm,(随便讲了讲)5. 那 pytorch 里怎么实现的?(我说就一般都是减去平均值除以方差,有一些 RMSNorm 可以不减均值6.一般还会有一些其他操作吧?(他说的是 另外两个系数,我就不太知道咋说,我说会有个罚项(本科最优化的名词突然蹦进来了)他就说你这个罚项指的是啥)7. 然后讲 Decoder(有几层 attention,cross attention 在哪里,明明我已经讲过这个了,他还要单独再问一下,真服了)时间不多了,代码题代码题就是给一个二维的二元 0 1 矩阵,返回一个矩阵,每个位置对应最近的 0 的距离题本身不难,他要我先说思路,我说先把 0 值本身遍历,再 BFS(他:时间复杂度多少)我:应该 On 方(太高了不可以接受)我:对于已经 BFS 搜索的节点都可以找到答案,不需要再遍历,应该就是 On(应该是 On 吗?到底是多少。。。。)我:我觉得就是 On,然后尝试写题(他:你先别写,不说清楚写也是错的)。。。(我给你一个思路实现吧,先找到 0,再找到 1)我:就是 0 1 2 这种距离找吗(是的)一道本身不难的题写的我乱七八糟(他:时间到了,你这写的也不对啊,为什么不用 BFS)我:???我一开始就是说 BFS 啊,你说不对(他:那为什么你的 BFS 是 On 方复杂度?)我:那我不是说剪枝后是 On 吗?(他:怎么实现是 candidate 的事情,我们只是给建议)我直接被气笑了(内心:你没事吧?没事你就不要建议, 我要正常早就写完了)然后问业务:prediction。。。。以后都不想投这种完全不匹配的了不过至少在八股这一块,其实都是自己应该会的,只是说现在面前都是项目为主,这种八股基本不注意,一般一场面试碰到一两个也无所谓,这种集中爆发也是因为项目不匹配,自己还需要进一步巩固八股。但是面试官是真**这辈子目前遇到的最*的
小帅哥噢:北大✌🏻不去也罢
文远知行一面33人在聊 查看11道真题和解析
0 点赞 评论 收藏
分享
Gold知难而进:当作面试一样回答一下这些问题: 1. 子序列两层for循环,if s[i] == s[j]: dp[i][j] = dp[i - 1][j - 1] + 1 else : dp[i][j] = max(dp[i - 1][j], dp[i][j - 1]) 2. xx 3.xx 4. lora, p tuning v1 v2, adapter tuning, prefix tuning. 5. 绝对,相对位置编码, Rope旋转位置编码 6. 从输入开始,一个是绝对位置编码一个是Rope编码。经过embedding层后,transformer decoder直接输入注意力层,而llama则是先经过norm,一个是Post norm一个是Pre norm,同时norm这里的区别前者为layer norm后者为Root mean square norm,对于注意力层,llama是GQA而transformer decoder是MHA,再经过FFN层,FFN层的激活函数transformer deocder是Relu,而llama没记错的话是SwiGelu,(就想到这些,不知道还有没有不同) 7. 不知怎么答 8. SGD , w = w - lr * gradient, Adam引入了一阶动量与二阶动量(方差) 9. 交叉熵损失 10. 假设dB参数的大模型,模型与梯度半精度fp16保存,一个参数两个字节,则占用2d G + 2d G = 4d G显存,优化器如果用adam,fp32保存模型权重备份,动量与方差,则占用3 * 4 * d G = 12d G显存,对一个dB参数的大模型做full training显存占用估计在16dG。(deepspedd, 模型并行,张量并行之类的可能会继续问了) 欢迎补充点评
查看8道真题和解析
0 点赞 评论 收藏
分享
四月中旬之后就没有再投简历,但是到了 5 月反而又有不少被鸽的岗位陆陆续续捞我面试。甚至现在还有不少岗位还在招人,毕竟很多公司尤其是阿里系都是普遍 7 月才去实习的。5 月拒了个钉钉 offer,夸克反复捞起来面了五次还给我挂了。。百度二面在比较中,字节约了三面,快手一面挂了,其他的都懒得面了。感触比较深的是我把这两个月的实习经历写上去后,面试明显顺利很多,所以如果有同学面试没那么顺利,也可以选一个先去,积累一些业务相关的经验还是很有必要的。大概总结一下字节的面试内容,留作日后复习。1. 自我介绍都有2. 项目介绍(基本都是针对最近的实习内容)3. 你认为在上下文越来越长的情况下,Rag 还有必要吗?(和实习相关,有必要,因为目前虽然上下文长,但是对上下文的注意力并不均衡,仍然有很多信息无法被正常利用到,prompt 长度太长影响精度)4. 那你了解现在都怎么提高上下文长度吗?(相对位置编码介绍一些, 还有一些其他的训练数据之类的)5. 介绍一下 transformer 结构,它的位置编码是怎么样的?6. self attention 的 K 和 Q 是干什么用的?(逻辑上来说就是用 Key 和 Query 做配对, 相当于检索,然后计算注意力分数,其实就是检索的配对情况)7. 那如果让 K 和 Q 变成同一个矩阵,你觉得对模型性能影响大吗?(我认为主要是参数量变小了,会有一些影响,如果参数量不变,影响应该不太大? 面试官说:应该是会断崖下降的,就像你刚刚说的是做配对,没有 KQ 配对注意力计算会变差,不只是参数量的问题)8. 了解 RLHF 吗?奖励模型的训练任务是什么?(不了解 RLHF 没接触过。。。)9. 为什么现在都是 only decoder 结构?10. 模型的预训练了解吗?还有一些和实习相关的问题,不太记得了, 集中在数据生产和 rag 策略的一些内容。代码题(两面 4 道)1. 三数之和离 target 最近的结果2. 一个双指针滑动窗口的 mid 题 忘记了3. 二分法实现 sqrt 精度 0.00014. 判断字符串是否是旋转得到的(就是字符串尾部整体移动到头部,判断两个字符串是不是可以自动得到)字节整体还是重代码题,八股难度中规中矩,很久没准备了也不算难,这种应用部门也很看实际的项目
查看14道真题和解析
0 点赞 评论 收藏
分享
05-22 03:10
已编辑
北京大学 自然语言处理
最近面试少了, 精力放在工作上。 偶尔面试保持手感即可。 今天这个学习意义比较大就记录一下。面试本身没啥特殊的,就是项目+八股+代码。项目问了我的蚂蚁实习, DeepFM 相关的东西和大模型相关的东西。所以问了一些八股1.DEEPFM 介绍一下(聊了一些)2. 还了解别的推荐的模型吗(不了解)3. LLAMA 和别的模型架构有啥区别?4. Llama 用的是什么 norm 和激活函数(都忘记了,两个都答错了,没复习)5. LLAMA 和 Bert 有啥区别?6.flash attention 了解吗? 怎么做的计算?还有啥忘记了。 写代码题,最长严格递增子序列。(我只会 On 方 dp, 面试官一直告诉我用贪心+二分降低复杂度, 我感觉他是理解错了, 跟我说的思路我感觉是有问题的。 争论了半天, 还是 On 方写了)反问:不重要面试官人还是很好的,教育了我一顿。。。1. 简历为什么要字节放蚂蚁前面, 会让别人认为你是做开发(字节开发 蚂蚁算法)2. 蚂蚁这个实习还是太虚了, 没什么落地价值。 感觉我推荐也不懂,大模型懂得也没他多。 基座大模型肯定面不上, 但是大模型应用坑很多,有机会。 3. 让我之后一定要多补搜广推的知识, 再结合一些大模型的知识,面一个大模型搜广推不难。4. 一定要改简历, 他看我连用户增长这种边缘都挂简历了,很不理解,一看简历写的很差。。感觉他说的还是非常有道理,简历这块已经好几个面试官说了,只是已经摆烂阶段,就没改。 至于学哪方面知识,还是比较重要的。估计很多同学和我差不多,就是半桶水。 所以可以多学搜广推八股, 找个杂交岗位。
icecens:请问,用户增长这种边缘指的是用户增长组都是边缘组嘛?我有个这种组的实习机会不知道要不要去
查看5道真题和解析
0 点赞 评论 收藏
分享
算法的面试最近基本上都是项目为主, 也没啥八股,就没写面经。蚂蚁是算法工程 二面,饿了么是 NLP 二面, 智能信息是 NLP 一面。蚂蚁基本没问啥,就是针对项目聊了一会时间。重点是后面的代码题给我整不会了。1. leetcode84 柱状图中的最大矩形(上个月刷了,经典单调栈,但是这题感觉我当时写就不太理解, 面试官问我思路我脱口而出单调栈,但是写不出来)2. 84 没写出来,给我换了一个,149。又是一个 hard(开始无语,就想早点结束给我挂了算了。 这题我也没写过, 暴力肯定不难。 但是我说这个我想不到比较优的解)3. 又给我换了一个, 这次给我一个 easy, 让我把一串字符串的空格移动到最后(竟然还给我做道题,这个时候都一个小时多了已经,我还以为会直接结束)然后面试官让我之后可以把前面两道题代码补进那个网页里(结果第二题没来得及补,就进不去了)智能信息一面,夸克 医疗创新1. 一样聊在蚂蚁实习的算法项目2. 中途问了一下, PEFT 的那几种微调的区别,就大概讲了一下我自己的理解3. 我对大模型训练的流程熟悉吗?(就大概讲了一下全流程)4. 了解 RLHF 吗(不太了解,没做过。就随便讲了一下奖励模型啥的)5. DPO 知道吗(不知道怎么做的,就没问了)6. 你觉得应该从哪些方面一个大模型的好坏?(随便说了几个, 知识储备, 指令跟随, 安全对齐, 对话逻辑)7. 那你认为, 你说的这几种能力,都是在模型训练流程的哪个部分获得的?(挺有意思的问题。 知识储备是预训练获取的, 指令跟随一般是做微调, 安全对齐可能是 SFT rlhf, 对话的逻辑性应该都有关)还有啥不记得了, 也没做代码题。 面后不久就约二面了。我笔试都还没做呢饿了么二面饿了么二面有点深挖项目了, 很多我都不太清楚。1. 项目介绍2. 深入聊大模型梯度攻击(这东西在蚂蚁做的, 每次说这个我都很累, 自己讲的面试官都听不明白, 不懂怎么做的。 然后就会出现很多牛头不对马嘴的问题,饿了么二面就一直卡在一个地方说了很久。3.  那你们这个自回归任务用的 loss 是什么? 回归任务常用的 loss 有哪些(这我 ** 还真没了解, 就知道 L1 L2 范数这种,或者用 cos距离)还有一些啥不记得了,饿了么二面时间感觉就 40 分钟,也没做题
0 点赞 评论 收藏
分享
04-17 01:24
已编辑
北京大学 自然语言处理
面试官人挺好的, 最近面的都是算法,开发基本上放弃了,也没准备。 临时被捞,想面看看。1.自我介绍2.拷打字节的实习项目3.问了一下字节项目的一些具体细节4. 问我了不了解 redis(字节实习用到了,但是我说我不懂这个,只会用,就没问了)5. STL map 怎么实现的?(红黑树,具体的我就不懂了)我说我用 umap 更多,哈希表。就问了一下他这个哈希表解决冲突的办法,以及 rehash 的时间。5. C++智能指针你知道吗?讲一下6. C++的多态了解吗?(动态,静态,讲了一下)7. 那你知道虚函数表是什么时候创建的吗?(没理解, 不知道怎么回答。就说构造函数会创建虚函数表指针啥的, 编译时候决定? 乱说)然后问古早的 webserver 项目。。。8. proactor reactor讲一下(模模糊糊的记忆,上个月复习了,最近没面又忘记了,就大概讲了一下意思。 面试官说我明白你的意思,差不多)9. 心跳机制是干啥用的?(不记得了,瞎扯)10. 你实现的线程池类是怎么起作用的?(就说了一下大概的线程池思路,其实根本没有深入说, 还好面试官也就大概问问。。。。)10. webbench怎么做的(下载的脚本)11. 知道锁机制吗(uniquelock lockguard 之类的)12. 那你知道互斥锁 读写锁区别吗?13. 锁的底层是怎么实现的?(没太理解,就说原子操作啥的)代码题 LRU,给了 25 分钟, 结果有一点 bug 没跑通,面试官让我讲一下思路,然后说思路没问题,有一些小 bug 自己下去看看。整体难度只能说是非常友好了,但是确实是最近已经放弃开发了(都挂了)面试官也一直说明白我的意思,没问题啥的。不知道能不能过
0 点赞 评论 收藏
分享
先上来面试官说我笔试成绩还不错,恭喜我通过笔试。1.自我介绍自我介绍中途就被打断问问题了面试官似乎比较想深挖我第一段实习的推荐系统部分,但是我主要是数据相关,不太懂其实。2.为什么我们要用流式 flink 任务而不用 map reduce 啥的(好像是这样问的,不太记得了)3. 有针对你的 flink 做一些优化吗?有测算过它的时间性能吗?4.知道哪些召回的方式(倒排?向量召回?)5. 向量召回中是怎么做到快速召回的?这么多数据量不可能一个一个去遍历吧?(不会。。。瞎扯)6.有没有用过 java 的 springboot 啥的(完全不会 java)然后可能是大模型实习项目的一些问题7. 推理框架你有了解过吗(没有。。)8. 推理流程你能介绍一下吗?9. 既然说到 tokenizer,那你了解分词的方式吗?介绍一下 BPE。10.BPE 中我合并相邻的词后,比如 AB,那么 A 和 B 还会存在词表中吗?(那肯定)11.分词的时候是分成大词还是小词优先,比如是 AB 还是 A 和 B(AB,这样应该可以尽可能的保持语意)12. 做微调的时候, 有没有必要去加入新的词到词表中?13. 那几种常见的微调方式介绍一下。14. 你在做微调的时候,怎么解决遗忘的问题?还有一些问题不太记得了, 也没让做代码题,应该是笔试分数还比较好就没做。反问问了做的业务,他说是有做推荐算法的训练架构(难怪问了我那么多第一段实习的推荐的东西,但是我也没接触过这些算法侧的问题)还有做大模型相关的一些训练推理框架优化,实际上就是 AI INFRA。还问了我的笔试反正就是说挺不错的。然后问现在这个岗位面的人多吗?多久有结果。他说简历确实挺多的,一面可能都得一周多才能面完,之后才会做一次筛选。
0 点赞 评论 收藏
分享
关注他的用户也关注了:
牛客网
牛客企业服务