RZ_Q level
获赞
873
粉丝
442
关注
60
看过 TA
9922
门头沟学院
2025
算法工程师
IP属地:北京
可以私信交流
私信
关注
09-11 19:36
已编辑
门头沟学院 算法工程师
mamazi00:智谱是这样的,对大家的经历都不太感兴趣,尤其是如果只做过sft的基本就不用浪费时间投递了。
0 点赞 评论 收藏
分享
09-20 00:57
已编辑
门头沟学院 算法工程师
1. 自我介绍2. transformer中softmax的作用?不做softmax会有什么问题?Softmax怎么解决上下溢的问题?除了减去最大值还有方法?3. selfattention 和传统attention 的区别?为什么Q K矩阵要不一样?Q K相同会怎么样?4. BERT的CLS token的作用?这个CLS在下游分类任务的效果不好,有什么不用CLS的改进方法吗?用BERT做分类如何更好表达句子含义?BERT的输出有几种?对应BERT中的哪两个函数?BERT当中哪些计算是线性的哪些是非线性的?BERT是怎么区分一词多义的?5. 学习率warmup的用法和作用?解释梯度消失的原因和解决方法,Dropout可以解决梯度消失吗?6. BERT和GPT各自结构的优势?如果大模型以后部署、速度都得到了很大的提升,BERT会被取代吗?7. GBDT和随机森林的区别?各自的方法流程?各自的数据处理的特点?各自偏向于解决什么问题?GBDT和随机森林对异常值的敏感程度?随机森林随机体现在哪些地方?8. 讲一下BN和LN,Transformer问什么不用BN?9. LORA微调的目的?LORA可以增加领域知识吗?LORA矩阵初始化?两个矩阵的初始化反过来会怎么样?LORA微调的超参?10. LLM复读机问题以及解决方法有哪些?怎么抑制LLM的幻觉问题?常用的位置编码有哪些? 一些对原始attention的改进有哪些?11. 为什么要用多头注意力?多头的思想和QKV三个不同投影矩阵的思想的异同?QKV矩阵除了增加表达能力以外还有什么作用?(不太懂问的是啥,面试官后面提示说是还有降维的作用,不是很懂)类似多头的集成的思想在什么算法里面比较常见?(我答了机器学习的集成学习类,比如前面的随机森林,还说了MOE这种,面试官比较想听到的是多尺度CNN)修改了一些内容,恢复开放了,之前热度太高有点😨 #京东求职进展汇总# #软件开发笔面经#
mamazi00:八股仙人
0 点赞 评论 收藏
分享
graso03:走,咱还看不起它呢,不想招人可以不招
投递阿里巴巴等公司10个岗位 阿里求职进展汇总
0 点赞 评论 收藏
分享
09-11 19:39
已编辑
门头沟学院 算法工程师
这周一腾讯QQ一面秒挂影响了心情,这周的面经都没写面经的话尽量回忆一下联想一面1. 问了一个比较怪的问题,我没有很理解。就是我项目里面有做RLHF,他就问我的RM怎么训练的,回答给SFT模型加一个线性层输出reward值,然后就问我这个过程需要导什么库?答加载模型需要transformers库,然后问我加那个reward头需要什么库?有点懵,不是很懂他想问什么,加头的做法是参照LlamaforSequntialClassification做的2. 然后其他的都是一些常规问题,不太记得了,没有做题腾讯 QQ 一面1. 主要拷打了一下实习和项目2. 然后问我如果在QQ想做什么,回答了可能做QQ短视频、小世界的一些推荐(给自己挖坑,推荐只是速成了一下,不是很熟悉)3. 然后开始问推荐怎么和大模型进行结合?问开放性问题:怎么去给QQ短视频里面的视频做推荐?怎么挖掘这些视频的标签? 只能说自己挖坑自己受苦4. 手撕出了一个 寻找目标值,之前面试的时候做过,结果这次做的有些小bug,感觉是这个导致了最后挂字节 广告算法 一面重量级来了1. 上来没有问实习,没有问项目直接开始八股轰炸2. transformer相关经典八股,问了有一个问题我觉得值得说一下,就是问我知不知道序列中每一个token的embedding在经过很多层self attention之后会变得相似的问题以及对应的原因?之前没有思考过,当场思考了一下,意思大概是深层网络往往学到的是序列的全局特征,所以会相似,还有就是每一次做self attention相当于在做平滑。这部分确实还得再想想3. 开始机器学习相关,手撕一个二分类的全流程,从输入到embedding到分类网络到sigmoid函数到交叉熵loss(中间的具体模型用一个函数代替即可)4. 手撕上述交叉熵loss的链式求导,就是loss对p求导,p对sigmoid求导(这里需要记住sigmoid的导数等于sigmoid x (1-sigmoid),不然现场推怕是推不了一点)5. 做一个最长公共子序列,算是常规6. 改成子串再做一遍。。。。(这个还是想了好久怎么改DP的条件)只能说不愧是字节,希望二面不要太折磨人😩中兴 算法工程师(智算)一面会议室里面进来了四个人😨,离谱1. 主要还是问实习和项目2. 其中一个面试官感觉像是套方案,疯狂问我实习部分继续预训练的数据大小、数据配比、数据清洗、训练流程、训练参数、学习率,感觉是遇到这种面试官还真得牢记项目的全流程,一些环节忘了就有点尬了智谱AI GLM对齐团队 一面1. 实习、项目拷打2. 因为是对齐团队,所以很care我有没有关注目前前沿的RLHF方法(前沿的关注不了一点,只能说了一些感觉有点早的东西)3. 大概讲了 从优化PPO出发和优化DPO出发的两类对齐方法,优化PPO的比如deepseek的GRPO,优化DPO的比如一堆DPO变体,以及DPO加正则化的方法。中间还让我从强化学习的角度给出优化PPO的方法,我就讲了一下老本行,从PG到REINFORCE到TRPO到PPO,然后表示我也不知道怎么优化PPO,已经是强化学习工业界用的最广泛的了哈哈哈哈哈4. 手撕了一个transformer的decoder block5. 记忆里应该还是问了Deepspeed跟Megatron智源人工智能研究院 行业大模型 一面1.时长半个小时,主要拷打实习经历,我实习做的也是领域大模型。非常巧的是,面试官也在美团同一个部门实习过,甚至认识我老板,希望不要跟我老板对情况,戳穿我吹牛逼的东西快手 推荐大模型 二面1. 记不太清问了些啥了,感觉是实习主要加LLM的一些经典八股(感觉是不超出我目前写过的面经的范围)2. 手撕了一道最小编辑距离,写的时候有一个地方=写成==了,一直检查不出来,给面试官逗笑了京东 NLP 二面1. 主要拷打实习,比较关注数据质量处理,以及模型评估方面,会care具体上线业务没有2. 一些常规的LLM八股,有一个问题值得说一下。问了一个LLM推理的时候,如何从prompt到response?他想问的意思其实是LLM出来的结果不是prompt+response嘛,然后怎么去把response分出来,还说具体的代码里面会有一些额外操作,不是简单的截取然后decode,让我下去仔细看看3. 手撕了一个topk,我直接heapq.nlargest,面试官说也行哈哈哈哈哈中兴 算法工程师(智算)二面1. 这一面感觉是很HR面的感觉,介绍实习的时候也是比较关注数据的来源、处理、采样方面,然后是聊天,各种查户口面试时间硬是拖到一个小时,本来预约的是半个小时。。---------------------------又是忙碌的一周,感觉是腾讯给我秒挂了真的很影响心情,毕竟是最想去的厂了麻花腾!再给我一次👅的机会吧 #牛客创作赏金赛# #腾讯# #美团# #百度# #拼多多# #科大讯飞# #联想# #中兴# #作业帮# #快手# #字节# #智谱AI# #京东# #智源#
RZ_Q:面试流程中的: 1. 京东 NLP 三面(已约) 2. 快手 推荐大模型 三面(已约) 3. 拼多多 算法工程师 三面(已完成,官网状态还是面试中不知道后面还有没有HR面之类的) 4. 科大讯飞 飞星 NLP 二面(已完成,官网状态面试中,但是超过一周没推进了,就当挂了) 5. 中兴 算法工程师(智算)二面(已完成) 6. 字节 广告算法 TAC 二面(已约) 7. 智谱AI GLM对齐团队 二面(已约) 8. 联想 一面(已完成) 9. 智源人工智能实验室 行业大模型 一面(已完成) 10. 同花顺 大模型 一面(已完成,超过一周没有推进,当挂了) 已经挂了的: 1. 腾讯 QQ 一面挂 2. 快手 快star大模型应用 一面挂,大语言模型算法、机器学习 简历挂 3. 作业帮 对话方向 一面挂 4. 米哈游 NLP 简历挂 5. 鹰角网络 做完笔试挂 6. 淘天集团 做完笔试挂 7. 字节 ailab 内推 简历挂 8. Minimax 简历挂 9. TCL 简历挂 10. Insta360 简历挂 11. 滴滴提前批 大模型出行方向 简历挂 12. 通义实验室 boss上问HR被告知最低要求一篇paper 简历挂 还在筛选:很多 阿里系的刚投,还没有面试(测评跟笔试给人做🤮了,每次投一个就得做一遍)
查看25道真题和解析 牛客创作赏金赛
0 点赞 评论 收藏
分享
面试时间8月29日科大讯飞飞星计划NLP 二面感觉是要寄,这面试官问问题很不清晰。。。1. 直接查户口2. 跳过项目、实习直接八股轰炸(感觉是直接回我不感兴趣)3. 问训练一个通用大模型的步骤(我理解成base模型了,流程里面只说了预训练,然后他意思是chat那种,就还得包含SFT、RLHF)4. 问Transformer encoder decoder结构上的不同(答了双向注意力和单向注意力,面试官说还有呢,答了transformer里面一个self attention,一个cross attention,问还有呢,答了transformer中encoder self attention + FFN,decoder self attention + cross attention + FFN,问还有呢?还有啥啊?你让说结构区别的啊,难道他其实想问输入输出、训练任务的区别?反正给我问急了?)5. 问RLHF的流程,问到RM的训练的时候突然问RLHF的loss是什么,顺势就以为问的是RM的loss,答交叉熵,说不对???不是吗?后面想了一下他可能是想问PPO的loss6. 后面确实问了PPO的优化目标。。。7. 最急的来了,问有多个弱分类器,怎么利用生成一个更强的分类器,答voting,然后直接问了机器学习ensemble的方法,bagging、boosting、stacking,勉强答上来,然后问这些方法对数据的处理有什么不同,只记得bagging是有放回的采样。。。(机器学习的八股确实还得再加强)8. python相关 装饰器、*args、**kwargs9. 问大量文本怎么生成一个字典(理解了一会才明白问的是词表生成,答了BPE的流程)10. 反问环节,说是做RAG的,不是那你连我的LLM实习经历也不问?八股也不问RAG?总结,目前为止科大讯飞两次面试体验都很差,一面好像就半个小时?查户口加听我讲项目、无手撕无八股直接结束。二面面试官问题都说不清楚,让我理解困难,然后实习、项目一个不问,也没有手撕,40分钟不到就结束,麻麻滴,想挂我直说好吧😠拼多多算法工程师三面1. 自我介绍2. 查户口,从本科查到研究生,问比赛经历、课程、保研blabla一堆3. 实习介绍,全程倾听,讲嗨了4. 研究项目介绍,全程倾听,讲嗨了5. 问个人优点缺点、导师评价、实习leader评价等等6. 问能不能接受拼多多的工作时间,先接受了再说,感觉11 11 6也不是不行,💰给够还是可以考虑的7. 反问,这个面试官的组主要是做拼多多评价相关的业务面试体验还是很好的,拼多多算是我面试流程最快的了,笔试到三面完也就半个月多一点,不知道后面还有没有HR面,先许愿一个offer好吧#科大讯飞##拼多多##面经#
牛客563632234号:哎 讯飞同一个面试官 比佬答的烂多了啊哈哈哈哈加油
查看9道真题和解析
0 点赞 评论 收藏
分享
关注他的用户也关注了:
牛客网
牛客企业服务