大模型暑期实习面经|腾讯音乐娱乐集团 技术研究—自然语言处理
- 部门:QQ音乐
- base地:深圳
- 流程:一面+二面+三面+HR面
- 推进速度:非常快,每一面在一小时内出结果
一面 50min
- 自我介绍
- 论文介绍
- 什么是MHA
- Attention运算公式
- 为什么除以根号dk
- 介绍现有相对位置编码和绝对位置编码的异同点,都有哪些结构
- RoPE的结构
- RoPE相比于绝对位置编码的优势是什么?为什么外推性更好?
- 为什么RoPE理论上可以无限外推?
- RoPE为什么可以利用绝对位置和相对位置的优势?
- 介绍RAG项目(基座模型是什么?几b ?全参微调用了多少卡?数据多大?问答对的形式有图片吗?
- 对RAG的理解是什么?为什么要用RAG?
- BGE模型的结构
- 什么是LoRA?有个两层神经网络,参数1万*一万,低秩r =100, LoRA参数量是多少?
- 为什么用KV Cache?
- KV Cache有哪些优化方法?
- 文生图/图生文结构了解吗?文生图的怎么解码的
- CLIP了解吗?
- Deepseek MOE架构路由机制的细节
- 场景题
- 手撕:快速排序
- 反问
二面 60min
- 自我介绍
- 论文拷打,提出质疑
- RAG项目介绍
- 分块的策略是什么
- PDF的表格和图片怎么解析的?图片和表格的信息丢失了怎么办?
- RAG的关键词检索和重排细节
- 异构图方式和传统的多模态拼接方式有什么性能上的改进吗?
- 多模态之间的特征的对齐你是怎么做的?现有工作怎么做的
- Prompt有什么系统性优化的方法?
- 代码:199: 二叉树右视图
- 简单介绍一下Prefix Cache ? Deepseek 是怎么开启Prefix Cache的?
- 位置编码的作用的实现方式有哪些?
- LLM推理部署的时候,会用vLLM, 这主要从哪些方面提升?怎么提升的推理速度?
- 文本生成解码策略,贪心搜索和束搜索的优劣是什么?
- 实习时间,反问
三面 50min
- 自我介绍
- 论文拷打,细到实验结果数据
- RAG项目400万文字怎么分块,索引,embedding的
- 微调的指标和RAG的指标是什么?ROUGE指标怎么计算
- 评估方式是不是太简单了,对SFT的指标还有没有更好的
- 项目中负责的部分
- 用的最多的GPU时间是多少
- 有做过多机多卡训练吗
- 为什么去前端实习了后又转算法
- 对未来的规划是什么,想做什么技术
- 实验室的方向是什么
- 大模型的预训练和SFT的不同是什么
- 限制大模型输入长度的因素有哪些?
- 目前的大模型如何解决长上下文?
HR面 30min
主要问项目、规划等,氛围比较轻松
#大模型算法工程师##NLP##大模型##腾讯音乐26届实习#