大模型LLM面试题总结
以下面试题涵盖了大型语言模型(LLM)的多个方面,包括模型架构、训练、评估、优化和应用
一、模型架构与基础
- 简述GPT和BERT的区别
- 讲一下GPT系列模型是如何演进的
- 为什么现在的大模型大多是decoder-only的架构
- 简述Transformer基本原理
- 为什么Transformer的架构需要多头注意力机制
- transformers需要位置编码吗
- transformer中,同一个词可以有不同的注意力权重吗
- Wordpiece与BPE之间的区别是什么
二、工作机理与生成模型
- 讲一下生成式语言模型的工作机理
- LLM中的因果语言建模与掩码语言建模有什么区别
三、性能评估与偏见问题
- 如何评估大语言模型(LLMs)的性能
- 哪些因素会导致LLM的偏见
四、微调技术与应用
- 解释ChatGPT的零样本和少样本学习的概念
- 你了解大型语言模型中的哪些分词技术
- 如何缓解LLMs重复读问题
五、优化与推理技术
- 有哪些常见的优化LLMs输出的技术
- 介绍下PPO算法流程,它跟TRPO的区别是什么
- 请简述下FlashAttention的原理
六、模型效率与量化
- GPT-3拥有的1750亿参数,是怎么算出来的
- 温度系数和top-p,top-k参数有什么区别
- 训练后量化(PTQ)和量化感知训练(QAT)与什么区别
- LLMs中,量化权重和量化激活的区别是什么
七、模型部署与推理优化
- 介绍一下GPipe推理框架
- 矩阵乘法如何做张量并行
八、模型架构细节与注意力机制
- 为什么transformer块使用LayerNorm而不是BatchNorm
- 介绍一下postlayernorm和prelayernorm的区别
九、提示技术与高级应用
- 什么是思维链(CoT)提示
- 你觉得什么样的任务或领域适合用思维链提示
- 你了解ReAct吗,它有什么优点
十、模型微调与效率优化
- 解释一下langchainAgent的概念
- langchain有哪些替代方案
- langchaintoken计数有什么问题?如何解决
十一、训练技术与微调方法
- LLM预训练阶段有哪几个关键步骤
- RLHF模型为什么会表现比SFT更好
- 参数高效的微调(PEFT)有哪些方法
十二、微调技术细节
- LORA微调相比于微调适配器或前缀微调有什么优势
- 有了解过什么是稀疏微调吗
十三、评测方法与基准
- 大模型一般评测方法及基准是什么
十四、知识更新与RAG
- 为什么LLM的知识更新很困难
- RAG和微调的区别是什么
AI大模型面试题及答案解析资料,*******