腾讯/百度/minimax 大模型算法面经总结帖
腾讯NLP
1.跨模态对齐有哪些方式?为何逐渐不使用Q-Former?
2. Baichuan2 - 7B模型架构是怎样的?其位置编码如何实现?与Qwen家的位置编码实现有何不同?
3. 了解Qwen - VL吗?其架构如何?有何独特之处?
4. Adapter、P - tuning和Lora之间的区别与联系是什么?
5. 数据集如何构建与评测?
6. 数据集评估过程中遇到哪些困难?如何解决?
7. RAG检索内容是否相关?有无进行Rerank或其他操作?
8. 对Agent有何看法?
9. 了解强化学习DPO吗?与PPO有何区别?有什么好处?
10. 谈一谈大模型完整训练过程及每一阶段的作用。
混元大模型团队
1.Qwen 和 DeepSeek 有什么区别?
2.为何大家都开始探索 MoE 架构?MoE 相比 Dense 有什么好处?
3.用 LoRA 微调过 Qwen,是否全量微调过?两者性能表现有何对比?
4.用 DeepSpeed 微调过 Qwen2 - 72B,ZeRO - 1、ZeRO - 2、ZeRO - 3 三个模式的区别是什么?用 DeepSpeed ZeRO - 3 微调 Qwen2 - 72B 时,每一张卡占用显存大概是多少?为什么?
5.除了 DeepSpeed,还用过哪些优化方法?
6.知道 LoRA 的原理吗?A 和 B 两个矩阵怎么初始化?了解过其他初始化方法吗?
7.讲一下大模型训练和推理的流程,SFT 和 RLHF 的作用分别是什么?
8.在 RLHF 中,目前主流的强化学习算法有哪几个?写出损失函数的表达式。
9.对 RLHF 了解多少?讲一下 RLHF 的流程。之前有用 RLHF 做过模型对齐吗?在做对齐时,为什么 SFT 之后还要做 RLHF?只用 SFT 可以吗?
10.知道哪些强化学习算法?除了 PPO 和 DPO,DeepSeek 用的 GRPO 相比于 GPT 的 PPO 做了哪些改进?
11.微调 Qwen 时,数据是怎么构造的?有用到什么数据清洗方法?数据配比是怎么做的?
CSIG腾讯地图
1. 进行自我介绍,聊简历上和大模型相关的项目(约5分钟)。
2. 讲一下LORA的基本原理。
3. 了解主流的开源大模型吗?如Llama、Qwen、deepseek。
4. 对Python的熟悉程度如何,能用pytorch写一下多头注意力机制吗?
5. C++的代码能力情况(较随意聊) 。
6. 手撕代码:反转链表和合并有序链表。
7. 反问问题:
- 腾讯地图做的大模型应用是什么?
- 对Manus的看法是什么?
百度文心一言
1. PPO 与 GRPO 的区别,分别介绍它们的优势与缺点。
2.DPO 对齐训练的曲线是怎么样的,正例的概率会提升吗?参考这个知乎回答。
3.Deepseek - R1 里面不仅推理能力很好,而且文采能力也很好,这是个开放问题,如何让模型的文采能力也很好呢?
4.deepseed 介绍。
5.deepspeed 的每一段的通信比较,zero3 分别是 0 和 2 的多少倍,1.5 倍。
6.DPO 如何解决回答过长的问题,除了正则。
7.开放问题:为什么现在大家都在关注于大模型的推理能力 reasoning。
8.对于一个 base model 如何增强大模型的 reasoning 能力。
9.DPO 除了长度问题还有其他的问题吗?与问题 2 对应,reward hacking?都没有奖励模型了。
10.说一下 simpo 的原理,它是怎么解决 dpo 微调序列过长的问题的。
minimax
1.大模型算法中模型参数量每个部分有多少?
2.你了解哪些评估 minimax 大模型算法的手段?
3.如何评估 minimax 大模型算法中多模态模型的输出质量?
4.对于 minimax 大模型算法的数据集,如何提高质量?如何利用 gpt 辅助提升数据集质量?
5.有哪些方法可以提升 minimax 大模型算法中预训练模型的质量?
1.跨模态对齐有哪些方式?为何逐渐不使用Q-Former?
2. Baichuan2 - 7B模型架构是怎样的?其位置编码如何实现?与Qwen家的位置编码实现有何不同?
3. 了解Qwen - VL吗?其架构如何?有何独特之处?
4. Adapter、P - tuning和Lora之间的区别与联系是什么?
5. 数据集如何构建与评测?
6. 数据集评估过程中遇到哪些困难?如何解决?
7. RAG检索内容是否相关?有无进行Rerank或其他操作?
8. 对Agent有何看法?
9. 了解强化学习DPO吗?与PPO有何区别?有什么好处?
10. 谈一谈大模型完整训练过程及每一阶段的作用。
混元大模型团队
1.Qwen 和 DeepSeek 有什么区别?
2.为何大家都开始探索 MoE 架构?MoE 相比 Dense 有什么好处?
3.用 LoRA 微调过 Qwen,是否全量微调过?两者性能表现有何对比?
4.用 DeepSpeed 微调过 Qwen2 - 72B,ZeRO - 1、ZeRO - 2、ZeRO - 3 三个模式的区别是什么?用 DeepSpeed ZeRO - 3 微调 Qwen2 - 72B 时,每一张卡占用显存大概是多少?为什么?
5.除了 DeepSpeed,还用过哪些优化方法?
6.知道 LoRA 的原理吗?A 和 B 两个矩阵怎么初始化?了解过其他初始化方法吗?
7.讲一下大模型训练和推理的流程,SFT 和 RLHF 的作用分别是什么?
8.在 RLHF 中,目前主流的强化学习算法有哪几个?写出损失函数的表达式。
9.对 RLHF 了解多少?讲一下 RLHF 的流程。之前有用 RLHF 做过模型对齐吗?在做对齐时,为什么 SFT 之后还要做 RLHF?只用 SFT 可以吗?
10.知道哪些强化学习算法?除了 PPO 和 DPO,DeepSeek 用的 GRPO 相比于 GPT 的 PPO 做了哪些改进?
11.微调 Qwen 时,数据是怎么构造的?有用到什么数据清洗方法?数据配比是怎么做的?
CSIG腾讯地图
1. 进行自我介绍,聊简历上和大模型相关的项目(约5分钟)。
2. 讲一下LORA的基本原理。
3. 了解主流的开源大模型吗?如Llama、Qwen、deepseek。
4. 对Python的熟悉程度如何,能用pytorch写一下多头注意力机制吗?
5. C++的代码能力情况(较随意聊) 。
6. 手撕代码:反转链表和合并有序链表。
7. 反问问题:
- 腾讯地图做的大模型应用是什么?
- 对Manus的看法是什么?
百度文心一言
1. PPO 与 GRPO 的区别,分别介绍它们的优势与缺点。
2.DPO 对齐训练的曲线是怎么样的,正例的概率会提升吗?参考这个知乎回答。
3.Deepseek - R1 里面不仅推理能力很好,而且文采能力也很好,这是个开放问题,如何让模型的文采能力也很好呢?
4.deepseed 介绍。
5.deepspeed 的每一段的通信比较,zero3 分别是 0 和 2 的多少倍,1.5 倍。
6.DPO 如何解决回答过长的问题,除了正则。
7.开放问题:为什么现在大家都在关注于大模型的推理能力 reasoning。
8.对于一个 base model 如何增强大模型的 reasoning 能力。
9.DPO 除了长度问题还有其他的问题吗?与问题 2 对应,reward hacking?都没有奖励模型了。
10.说一下 simpo 的原理,它是怎么解决 dpo 微调序列过长的问题的。
minimax
1.大模型算法中模型参数量每个部分有多少?
2.你了解哪些评估 minimax 大模型算法的手段?
3.如何评估 minimax 大模型算法中多模态模型的输出质量?
4.对于 minimax 大模型算法的数据集,如何提高质量?如何利用 gpt 辅助提升数据集质量?
5.有哪些方法可以提升 minimax 大模型算法中预训练模型的质量?
全部评论
mark一下大佬
mark一下大佬
8.在 RLHF 中,写出损失函数的表达式。 在纸上写??
4.用 DeepSpeed 微调过 Qwen2 - 72B,ZeRO - 1、ZeRO - 2、ZeRO - 3 三个模式的区别是什么?用 DeepSpeed ZeRO - 3 微调 Qwen2 - 72B 时,每一张卡占用显存大概是多少?为什么?
这个问题怎么答啊?感觉一直都搞不懂
有难度的,感谢分享!
mark一下大佬
相关推荐