大模型LLM面试题总结

以下面试题涵盖了大型语言模型(LLM)的多个方面,包括模型架构、训练、评估、优化和应用

一、模型架构与基础

  • 简述GPT和BERT的区别
  • 讲一下GPT系列模型是如何演进的
  • 为什么现在的大模型大多是decoder-only的架构
  • 简述Transformer基本原理
  • 为什么Transformer的架构需要多头注意力机制
  • transformers需要位置编码吗
  • transformer中,同一个词可以有不同的注意力权重吗
  • Wordpiece与BPE之间的区别是什么

二、工作机理与生成模型

  • 讲一下生成式语言模型的工作机理
  • LLM中的因果语言建模与掩码语言建模有什么区别

三、性能评估与偏见问题

  • 如何评估大语言模型(LLMs)的性能
  • 哪些因素会导致LLM的偏见

四、微调技术与应用

  • 解释ChatGPT的零样本和少样本学习的概念
  • 你了解大型语言模型中的哪些分词技术
  • 如何缓解LLMs重复读问题

五、优化与推理技术

  • 有哪些常见的优化LLMs输出的技术
  • 介绍下PPO算法流程,它跟TRPO的区别是什么
  • 请简述下FlashAttention的原理

六、模型效率与量化

  • GPT-3拥有的1750亿参数,是怎么算出来的
  • 温度系数和top-p,top-k参数有什么区别
  • 训练后量化(PTQ)和量化感知训练(QAT)与什么区别
  • LLMs中,量化权重和量化激活的区别是什么

七、模型部署与推理优化

  • 介绍一下GPipe推理框架
  • 矩阵乘法如何做张量并行

八、模型架构细节与注意力机制

  • 为什么transformer块使用LayerNorm而不是BatchNorm
  • 介绍一下postlayernorm和prelayernorm的区别

九、提示技术与高级应用

  • 什么是思维链(CoT)提示
  • 你觉得什么样的任务或领域适合用思维链提示
  • 你了解ReAct吗,它有什么优点

十、模型微调与效率优化

  • 解释一下langchainAgent的概念
  • langchain有哪些替代方案
  • langchaintoken计数有什么问题?如何解决

十一、训练技术与微调方法

  • LLM预训练阶段有哪几个关键步骤
  • RLHF模型为什么会表现比SFT更好
  • 参数高效的微调(PEFT)有哪些方法

十二、微调技术细节

  • LORA微调相比于微调适配器或前缀微调有什么优势
  • 有了解过什么是稀疏微调吗

十三、评测方法与基准

  • 大模型一般评测方法及基准是什么

十四、知识更新与RAG

  • 为什么LLM的知识更新很困难
  • RAG和微调的区别是什么

AI大模型面试题及答案解析资料,*******

全部评论

相关推荐

Kstar 大模型训练/推理岗  50分钟,面完直接躺地上睡觉zzz上来直接对着简历里的实习经历和项目问。1. 有哪些KV Cache Compression的形式?(这边我想先从自己的实习项目开始,再说别的,被对方直接打断“我没有问你的东西,我问有哪些方法”  态度感觉很不友好 )  开始吟唱八股。2. MHA,MQA,GQA的概念,问怎样广播KV。之后问Multi-head Latent Attention与GQA的数据对应关系(给定hidden_status,Rope,MLA和GQA个数问MLA对应几个GQA),只知道MLA是低秩矩阵乘,但是具体怎么算没自己看过……没答上来。3. 问了20分钟项目里的KV Cache Sparse计算的细节和vLLM Triton的实现,自我感觉答得还可以。不过其中有一个,问我KV Cache Sparse计算为什么不用掩码,跟他说用掩码会导致不必要的GPU I/O和计算,不如直接传入稀疏矩阵,但对方一直觉得我说的有问题 = =||  4. DeepSpeed Zero123分别做了什么工作,吟唱完Zero1后被直接打断,让我算如果用Adam优化器,N个参数量的规模下Zero1如何给P个GPU分配数据。磕磕绊绊答出来,但是被说N个参数量还要考虑不同数据类型之间占用的内存不同FP32FP16balabala5. SmoothQuant原理,为什么要Smooth,参数如何设定(八股启动)  怎样判断一个模型是否适合SmoothQuant,如果用每层激活值分布判断,是看input channel还是output channel(答output,但是说完之后对方不置可否 = =||)6. AWQ和GPTQ原理,有何区别。7. 项目里为什么选用不同的量化方法,GPTQ和SmoothQuant对应什么场景。8. 蒸馏模型怎么做的,用了哪些技术(因为我用的模型是训练组给的蒸馏模型,只知道蒸馏的概念,细节不清楚)9. 分布式gpu通信原语  all together   all2all  (展开说了分别各自对应什么场景,结果被打断说“我只需要知道你告诉我这是通信原语就行”  觉得我说太多了…急着下班吗)反问环节有点幽默……我“请问您这边主要是做上游的微调或者modeling还是偏模型工程的推理加速?”  对方沉默一会儿回答“我们是算法”  把我尬住半天,,,面完1分钟看官网秒挂#秋招#
查看9道真题和解析
点赞 评论 收藏
分享
08-13 16:15
已编辑
微软_Applied scientist
组内急招,面试绿色通道!感兴趣请发简历给:xinyuehu@microsoft.com微软搜索广告算法团队隶属微软亚洲互联网工程院,我们与来自全球的工程师团队一起搭建涵盖用户、广告主和搜索引擎在内的业界领先的广告生态系统。微软广告产品遍布美国、加拿大 、英国、法国、德国、中国、日本、新西兰等全球200多个国家和地区。作为微软搜索广告团队的一员,你的技术和成果将会让全球超过10亿用户受益。岗位职责:1. 参与微软搜索广告系统的设计和开发工作,利用最前沿的LLM技术,改善广告相关性及收益2. 保持对数字的敏感性,基于测试结果及线上/线下指标对产品进行进一步改进3. 深入理解搜索广告系统,主动探索并发现问题,应用算法及相关技术手段进行改善4. 接受资深工程师和研究员的共同指导,研究探索最前沿的算法并将其落地在实际业务中任职要求:1. 计算机科学或相关专业硕士或博士在读,可长期实习的优先2. 熟悉 C/C++ 编程,信息检索,数据挖掘,机器学习,NLP,搜索广告及相关领域中的一个或多个领域,并有一定的知识积累3. 动手能力强,热爱软件设计及编程,能够持续研究和学习前沿技术,具有迎接挑战,解决难题的信心及热情4. 具有良好的沟通及团队合作能力,能够自我激励及自我指导5. 有LLM相关经验,在数据挖掘,机器学习相关领域发表了重要期刊或会议论文者优先    
投递微软等公司10个岗位
点赞 评论 收藏
分享
6 37 评论
分享
牛客网
牛客企业服务