算法工程师必刷「大模型高频面试题」

关于大模型的50道精选面试题

1.简述GPT和BERT的区别

2.讲一下GPT系列模型的是如何演进的?

3.为什么现在的大模型大多是decoder-only的架构?

4.讲一下生成式语言模型的工作机理

5.哪些因素会导致LLM中的偏见?

6.LLM中的因果语言建模与掩码语言建模有什么区别?

7.如何减轻LLM中的“幻觉”现象?

8.解释ChatGPT的“零样本”和“少样本”学习的概念

9.你了解大型语言模型中的哪些分词技术?

10.如何评估大语言模型(LLMs)的性能?

11.如何缓解LLMs复读机问题?

12.请简述下Transformer基本原理

13.为什么 Transformer的架构需要多头注意力机制?

14.为什么 transformers需要位置编码?

15.transformer中,同一个词可以有不同的注意力权重吗?

16.Wordpiece与BPE之间的区别是什么?

17.有哪些常见的优化LLMs输出的技术?

18.GPT-3拥有的1750亿参数,是怎么算出来的?

19.温度系数和top-p,top-k参数有什么区别?

20.为什么 transformer块使用LayerNorm而不是BatchNorm?

21.介绍一下post layer norm和pre layer norm的区别

22.什么是思维链(CoT)提示?

23.你觉得什么样的任务或领域适合用思维链提示?

24.你了解ReAct吗,它有什么优点?

25.解释一下langchain Agent的概念

26.langchain有哪些替代方案?

27.langchain token计数有什么问题?如何解决?

28.LLM预训练阶段有哪几个关键步驟?

29.RLHF模型为什么会表现比SFT更好?

30.参数高效的微调(PEFT)有哪些方法?

31.LORA微调相比于微调适配器或前缀微调有什么优势?

32.有了解过什么是稀疏微调吗?

33.训练后量化(PTQ)和量化感知训练(QAT)与什么区别?

34.LLMs中,量化权重和量化激活的区别是什么?

35.AWQ量化的步骤是什么?

36.介绍一下GPipe推理框架

37.矩阵乘法如何做张量并行?

38.请简述下PPO算法流程,它跟TRPO的区别是什么?

39.什么是检索增强生成(RAG)?

40.目前主流的中文向量模型有哪些?

41.为什么 LLM的知识更新很困难?

42.RAG和微调的区别是什么?

43.大模型一般评测方法及基准是什么?

44.什么是KV Cache技术,它具体是如何实现的?

45.DeepSpeed推理对算子融合做了哪些优化?

46.简述一下FlashAttention的原理

47.MHA,GQA,MQA三种注意力机制的区别是什么?

48.请介绍一下微软的ZeRO优化器

49.Paged Attention的原理是什么,解决了LLM中的什么问题?

50.什么是投机采样技术,请举例说明?

建议算法方向的同学,先收藏!面试前可以再根据题目自己梳理下回答的逻辑及亮点。

争取做到面试前心中不慌,面试时条理清晰!offer轻松握在手中~

目前同花顺算法招聘专场开启中

招聘对象:面向25届优秀的硕士、博士同学

招聘方向:NLP算法工程师、知识图谱算法工程师、算法工程师(图形/图像/视觉)、语音算法工程师、视频生成算法工程师、推荐算法工程师、搜索算法工程师、机器学习算法工程师、代码生成算法工程师

专场优势:我们拥有全方位的人才培养,配备丰富的前沿技术资源,用充足的计算资源自己去训练大模型把技术真正的用起来。有机会获得行业领先的百万级别薪酬,并进入同花顺国家级博士后工作站。

欢迎有兴趣的小伙伴通过同花顺招聘官网或小程序进行报名,岗位均可以内推哦~

#大模型##算法##算法面试经验分享##人工智能##面经#
全部评论
m
点赞 回复 分享
发布于 09-06 11:41 浙江

相关推荐

不愿透露姓名的神秘牛友
10-05 10:13
已编辑
HHHHaos:让这些老登来现在秋招一下,简历都过不去
点赞 评论 收藏
分享
2 35 评论
分享
牛客网
牛客企业服务