大模型暑期实习面经|腾讯音乐娱乐集团 技术研究—自然语言处理

  • 部门:QQ音乐
  • base地:深圳
  • 流程:一面+二面+三面+HR面
  • 推进速度:非常快,每一面在一小时内出结果

一面 50min

  1. 自我介绍
  2. 论文介绍
  3. 什么是MHA
  4. Attention运算公式
  5. 为什么除以根号dk
  6. 介绍现有相对位置编码和绝对位置编码的异同点,都有哪些结构
  7. RoPE的结构
  8. RoPE相比于绝对位置编码的优势是什么?为什么外推性更好?
  9. 为什么RoPE理论上可以无限外推?
  10. RoPE为什么可以利用绝对位置和相对位置的优势?
  11. 介绍RAG项目(基座模型是什么?几b ?全参微调用了多少卡?数据多大?问答对的形式有图片吗?
  12. 对RAG的理解是什么?为什么要用RAG?
  13. BGE模型的结构
  14. 什么是LoRA?有个两层神经网络,参数1万*一万,低秩r =100, LoRA参数量是多少?
  15. 为什么用KV Cache?
  16. KV Cache有哪些优化方法?
  17. 文生图/图生文结构了解吗?文生图的怎么解码的
  18. CLIP了解吗?
  19. Deepseek MOE架构路由机制的细节
  20. 场景题
  21. 手撕:快速排序
  22. 反问

二面 60min

  1. 自我介绍
  2. 论文拷打,提出质疑
  3. RAG项目介绍
  4. 分块的策略是什么
  5. PDF的表格和图片怎么解析的?图片和表格的信息丢失了怎么办?
  6. RAG的关键词检索和重排细节
  7. 异构图方式和传统的多模态拼接方式有什么性能上的改进吗?
  8. 多模态之间的特征的对齐你是怎么做的?现有工作怎么做的
  9. Prompt有什么系统性优化的方法?
  10. 代码:199: 二叉树右视图
  11. 简单介绍一下Prefix Cache ? Deepseek 是怎么开启Prefix Cache的?
  12. 位置编码的作用的实现方式有哪些?
  13. LLM推理部署的时候,会用vLLM, 这主要从哪些方面提升?怎么提升的推理速度?
  14. 文本生成解码策略,贪心搜索和束搜索的优劣是什么?
  15. 实习时间,反问

三面 50min

  1. 自我介绍
  2. 论文拷打,细到实验结果数据
  3. RAG项目400万文字怎么分块,索引,embedding的
  4. 微调的指标和RAG的指标是什么?ROUGE指标怎么计算
  5. 评估方式是不是太简单了,对SFT的指标还有没有更好的
  6. 项目中负责的部分
  7. 用的最多的GPU时间是多少
  8. 有做过多机多卡训练吗
  9. 为什么去前端实习了后又转算法
  10. 对未来的规划是什么,想做什么技术
  11. 实验室的方向是什么
  12. 大模型的预训练和SFT的不同是什么
  13. 限制大模型输入长度的因素有哪些?
  14. 目前的大模型如何解决长上下文?

HR面 30min

主要问项目、规划等,氛围比较轻松

#大模型算法工程师##NLP##大模型##腾讯音乐26届实习#
全部评论
确实厉害,膜拜一下大佬。(许愿三面过)
1 回复 分享
发布于 04-23 00:24 陕西
大佬投了多久约面的
点赞 回复 分享
发布于 04-26 23:20 四川
八股这么难么
点赞 回复 分享
发布于 04-26 07:01 四川

相关推荐

补发一下之前面试腾讯的面经,具体timeline可以参考前面的帖子。一面(约30mins):自我介绍,挑一个简历里最好的一个项目详细介绍下项目中遇到了什么挑战,怎么解决的了解DeepSeek吗,为什么DeepSeek现在这么火?说一下DeepSeek里的MLA和GRPOGRPO和DPO,PPO,RLHF的区别看你之前有LoRA微调DeepSeek的项目,简单说说微调经验,效果如何RAG在检索阶段能有哪些优化?(sub-query,HyDE等)二面(约1h10mins):自我介绍,拷打简历。写一下GRPO的公式先屏幕共享从头到尾walk through讲一下DeepSeek技术报告论文。面试官中间会穿插提问DeepSeek-v3/r1/r1-zero有什么区别DeepSeek-r1-zero的冷启动数据是怎么组成的DeepSeek-r1-zero解决了DeepSeek-r1的哪些问题如何解决大模型的幻觉Embedding如何微调(讲了对比学习啥的)RAG的评测指标有哪些业界现在function call的做法和水平场景题:大致是RAG中检索结果遇到张冠李戴的问题该如何解决举几个例子能够体现你的研究能力三面(约30mins)拷打LoRA微调项目,问了实验的数据集,参数设置,结果如何等等你目前的研究方向主要是什么?讲一下ReRanker的目的,做法有哪些场景题:我现在运用RAG来检索回答,目标是检索四个季度的表格数据,但是经过检索+ReRanker后只出现了三个季度的数据,该如何解决hr面(约15mins)比较常规,大致如下:用三个词语描述下你为何能胜任这份工作你的优缺点都说一下你过往实习项目中遇到过的最大困难是什么,怎么解决的最早实习时间,实习时常引流:腾讯字节阿里淘天美团拼多多#暑期实习##腾讯##大模型#
Rafae1:接好运
查看27道真题和解析
点赞 评论 收藏
分享
✅一面1️⃣深挖多模态论文2️⃣介绍transformer架构3️⃣详细说一下Decoder的因果注意力 QKV分别来自哪4️⃣Attention为什么要做scaled 不做会怎么样 为什么用根号d_k5️⃣Transformer怎么做加速训练(KV缓存) 训练和推理有什么区别(并行化)6️⃣深挖多模态大模型论文用的video-llama 讲一下大模型的结构7️⃣论文用了CoT讲一下论文的CoT是怎么样的8️⃣微调用的LoRA介绍一下LoRA9️⃣LoRA初始化怎么做的,用的秩是多少,为什么不选其他的数1️⃣0️⃣知道deepspeed和megatron吗?分别介绍一下1️⃣1️⃣论文用的deepspeed详细讲了一下三个stage分别是什么✅二面1️⃣深挖多模态和大模型的论文2️⃣Decoder文本生成有哪几种方法3️⃣还知道哪些多模态大模型4️⃣介绍一下ALBEF、BLIP5️⃣BLIP2的结构是什么  两阶段怎么训练的 有哪些损失6️⃣知道PEFT吗 讲一下LoRA7️⃣还有什么微调方法 -> prefix-tuning和P-tuning 两者分别是怎么做的 为了解决什么提出的8️⃣后面就是一些场景题✅三面1️⃣深挖论文2️⃣讲一下multi-head attention 用pytorch手撕一下 要可以实现cross attention的3️⃣讲一下你用的大模型是什么结构 特征是怎么喂给大模型的4️⃣大模型训练为什么不用SFT5️⃣LoRA是什么?有什么好处6️⃣知道RLHF吗?讲一下训练流程7️⃣接下来就是好几个场景题,电商相关的,用大模型解决prompt应该怎么设计,怎么处理prompt的输出,怎么过滤错误格式的输出📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
字节跳动三面455人在聊 查看23道真题和解析
点赞 评论 收藏
分享
评论
2
24
分享

创作者周榜

更多
牛客网
牛客企业服务