NLP算法面经11

58同城(2+1)​
1. 项目+实习​
2. LoRA微调全概况​
3. MHA 改进​
4. KV cache​
5. Paged attention​
6.7B LLM的训练显存占用​
7. Deepspeed 三阶段​
8. 大模型发展史​
9. 代码题:动态规划
#大模型# #面经# #nlp# 互联网大厂 #互联网大厂实习# 校招 #算法# #58到家#
全部评论

相关推荐

03-29 23:09
已编辑
吉林大学 算法工程师
一面3.24自我介绍,项目拷打,问相关八股SFT之后性能下降可能是什么原因,答预训练出现灾难性遗忘,SFT数据处理得不好;问优化策略,答冻结预训练阶段部分参数,指令数据格式要统一,加RLHF,拒绝采样扩充负样本介绍MOE架构,答门控机制调用不同专家,降低显存(这里说错了,相比同等规模的稠密网络,计算代价减小,显存占用不变),对于响应多的专家后续不让参与训练。问此外还有什么负载均衡的方法,答还有成组注意力(不过这个效果不太好),别的不清楚了问长文本较好的方案,答旋转位置编码,KVcache,滑动窗口。问除了这些提高效率的方法,对于输入文本超过接受长度的情况怎么处理,答提取关键词,对历史记录和prompt总结summary问CPT、SFT区别,答CPT数据更全面,SFT侧重指令数据手撕两两交换链表节点,写成改节点数值了。二分查找返回第一个出现的位置面试官人很好,没听明白的问题会进一步说明,后面代码卡住还给我提示二面3.28项目拷打,问的更深更偏实践问项目里RAG的操作流程,数据提取细节讲DPO,答的时候提到了几个名词,但是没说清楚整个过程。反思是受到前面回答得不好影响,就根据记得的大概说了下,有些内容忘了怕说多了露馅。补充了GRPO的原理问还有什么要介绍的工作。反思这里应该是觉得我前面项目做得不深入,想了解下有没有好点的,可惜我没了介绍LoRA微调原理手撕最长公共子序列并返回序列,没做出来,只会返回序列长度。面试官讲解了正确写法反问业务面试官人也很好,对我面试表现建议要加强语言表达
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务