07-25 17:21 湖南理工大学人工智能发布于湖南

关注

大模型LLM面试题总结

以下面试题涵盖了大型语言模型（LLM）的多个方面，包括模型架构、训练、评估、优化和应用

一、模型架构与基础

简述GPT和BERT的区别
讲一下GPT系列模型是如何演进的
为什么现在的大模型大多是decoder-only的架构
简述Transformer基本原理
为什么Transformer的架构需要多头注意力机制
transformers需要位置编码吗
transformer中，同一个词可以有不同的注意力权重吗
Wordpiece与BPE之间的区别是什么

二、工作机理与生成模型

讲一下生成式语言模型的工作机理
LLM中的因果语言建模与掩码语言建模有什么区别

三、性能评估与偏见问题

如何评估大语言模型（LLMs）的性能
哪些因素会导致LLM的偏见

四、微调技术与应用

解释ChatGPT的零样本和少样本学习的概念
你了解大型语言模型中的哪些分词技术
如何缓解LLMs重复读问题

五、优化与推理技术

有哪些常见的优化LLMs输出的技术
介绍下PPO算法流程，它跟TRPO的区别是什么
请简述下FlashAttention的原理

六、模型效率与量化

GPT-3拥有的1750亿参数，是怎么算出来的
温度系数和top-p，top-k参数有什么区别
训练后量化（PTQ）和量化感知训练（QAT）与什么区别
LLMs中，量化权重和量化激活的区别是什么

七、模型部署与推理优化

介绍一下GPipe推理框架
矩阵乘法如何做张量并行

八、模型架构细节与注意力机制

为什么transformer块使用LayerNorm而不是BatchNorm
介绍一下postlayernorm和prelayernorm的区别

九、提示技术与高级应用

什么是思维链（CoT）提示
你觉得什么样的任务或领域适合用思维链提示
你了解ReAct吗，它有什么优点

十、模型微调与效率优化

解释一下langchainAgent的概念
langchain有哪些替代方案
langchaintoken计数有什么问题？如何解决

十一、训练技术与微调方法

LLM预训练阶段有哪几个关键步骤
RLHF模型为什么会表现比SFT更好
参数高效的微调（PEFT）有哪些方法

十二、微调技术细节

LORA微调相比于微调适配器或前缀微调有什么优势
有了解过什么是稀疏微调吗

十三、评测方法与基准

大模型一般评测方法及基准是什么

十四、知识更新与RAG

为什么LLM的知识更新很困难
RAG和微调的区别是什么

AI大模型面试题及答案解析资料，*******

全部评论

推荐最新楼层

09-02 16:12

上海交通大学深度学习

记本人上周面试一小伙的全过程--AI推理优化方向

最近，正好在面试一些AI推理/大模型推理方向的校招同学，把面试过程按照对话的方式放出来，供各位看着玩玩。上周，领导又双来给了我一份简历。之前已经面过一次了，见此处领导：熊猫，这里是一个来自xxxx大学的同学，你看看有没有空去面试一下我：OK，我看一下(我看了后发现，这同学的简历虽然感觉写的一般，但是看起来工作量不少，实习应该有在认真工作，大模型推理相关技巧也有接触，在校招生里面，这些经历或许算得上top10%了，没准水平高过我，于是和上一期不一样，这次我是心怀忐忑地去“焦作人”）--------------------------------------分界线-----------------...

查看17道真题和解析

点赞评论收藏

08-15 11:06

已编辑

中国科学技术大学算法工程师

0814快手大模型训练推理一面秒挂

Kstar 大模型训练/推理岗  50分钟，面完直接躺地上睡觉zzz上来直接对着简历里的实习经历和项目问。1. 有哪些KV Cache Compression的形式？（这边我想先从自己的实习项目开始，再说别的，被对方直接打断“我没有问你的东西，我问有哪些方法”  态度感觉很不友好 ）  开始吟唱八股。2. MHA，MQA，GQA的概念，问怎样广播KV。之后问Multi-head Latent Attention与GQA的数据对应关系（给定hidden_status，Rope，MLA和GQA个数问MLA对应几个GQA），只知道MLA是低秩矩阵乘，但是具体怎么算没自己看过……没答上来。3. 问了20分钟项目里的KV Cache Sparse计算的细节和vLLM Triton的实现，自我感觉答得还可以。不过其中有一个，问我KV Cache Sparse计算为什么不用掩码，跟他说用掩码会导致不必要的GPU I/O和计算，不如直接传入稀疏矩阵，但对方一直觉得我说的有问题 = =||  4. DeepSpeed Zero123分别做了什么工作，吟唱完Zero1后被直接打断，让我算如果用Adam优化器，N个参数量的规模下Zero1如何给P个GPU分配数据。磕磕绊绊答出来，但是被说N个参数量还要考虑不同数据类型之间占用的内存不同FP32FP16balabala5. SmoothQuant原理，为什么要Smooth，参数如何设定（八股启动）  怎样判断一个模型是否适合SmoothQuant，如果用每层激活值分布判断，是看input channel还是output channel（答output，但是说完之后对方不置可否 = =||）6. AWQ和GPTQ原理，有何区别。7. 项目里为什么选用不同的量化方法，GPTQ和SmoothQuant对应什么场景。8. 蒸馏模型怎么做的，用了哪些技术（因为我用的模型是训练组给的蒸馏模型，只知道蒸馏的概念，细节不清楚）9. 分布式gpu通信原语  all together   all2all  （展开说了分别各自对应什么场景，结果被打断说“我只需要知道你告诉我这是通信原语就行”  觉得我说太多了…急着下班吗）反问环节有点幽默……我“请问您这边主要是做上游的微调或者modeling还是偏模型工程的推理加速？”  对方沉默一会儿回答“我们是算法”  把我尬住半天，，，面完1分钟看官网秒挂#秋招#

查看9道真题和解析

点赞评论收藏

08-18 11:18

中国科学技术大学 Java

大模型基础架构岗面经

moe和dense模型的区别，各自的优缺点 a. 参数量，计算量，训练效果，如何选择deepspeed原理，你是否可以从理论上对 ds 的 stage3 阶段的性能进行分析混合并行策略是否了解，介绍一下 TP，PP，DP 的使用场景介绍一下混合精度训练的原理和优势 ● 追问量化技术是否了解是否了解 Hopper 架构的新特性，对 flash-attention3 是否了解，两者的结合如何介绍一下 SM，SP，warp 相关概念和关系（感觉想问 warp-group...力扣手撕：岛屿数量未来发展方向，对 LLM 行业的态度及意向

查看11道真题和解析

点赞评论收藏

08-13 16:15

已编辑

微软_Applied scientist

【实习】微软广告算法实习生（LLM方向）

组内急招，面试绿色通道！感兴趣请发简历给：xinyuehu@microsoft.com微软搜索广告算法团队隶属微软亚洲互联网工程院，我们与来自全球的工程师团队一起搭建涵盖用户、广告主和搜索引擎在内的业界领先的广告生态系统。微软广告产品遍布美国、加拿大 、英国、法国、德国、中国、日本、新西兰等全球200多个国家和地区。作为微软搜索广告团队的一员，你的技术和成果将会让全球超过10亿用户受益。岗位职责：1. 参与微软搜索广告系统的设计和开发工作，利用最前沿的LLM技术，改善广告相关性及收益2. 保持对数字的敏感性，基于测试结果及线上/线下指标对产品进行进一步改进3. 深入理解搜索广告系统，主动探索并发现问题，应用算法及相关技术手段进行改善4. 接受资深工程师和研究员的共同指导，研究探索最前沿的算法并将其落地在实际业务中任职要求：1. 计算机科学或相关专业硕士或博士在读，可长期实习的优先2. 熟悉 C/C++ 编程，信息检索，数据挖掘，机器学习，NLP，搜索广告及相关领域中的一个或多个领域，并有一定的知识积累3. 动手能力强，热爱软件设计及编程，能够持续研究和学习前沿技术，具有迎接挑战，解决难题的信心及热情4. 具有良好的沟通及团队合作能力，能够自我激励及自我指导5. 有LLM相关经验，在数据挖掘，机器学习相关领域发表了重要期刊或会议论文者优先    

投递微软等公司10个岗位

点赞评论收藏

08-30 18:59

河海大学 DSP工程师

某度提前批三面！

某度提前批三面，来分享面经。 某度提前批三面更多是边面试边聊天，聊天其实更多啦，没有特别多的技术问题。 1.你觉得做的这个项目性能收益的insights在哪里？是有人这么做吗，还是你自己创新的？ 2.对目前AI/GPU处理器的公司有什么看法？觉得有谁最后能突破NV走出来吗？你是如何评价各家的技术路线的？包括了瓶颈，NPU和GPGPU的区别和联系，国内的技术路线等 3.你有什么对昆仑芯好奇的吗？4.虚拟地址和物理地址的关系，什么时候多个虚拟地址会映射到同一个物理地址，会出现一个虚拟地址映射到不同物理地址的情况吗，为什么？ 5.问了偏好的地域和为什么不留在实习的地方

查看5道真题和解析

点赞评论收藏

6 37 评论

全站热榜

正在热议

# 如果能重来，就业or读研你选哪个？ #