美团 腾讯 百度 淘天 大模型相关 日常实习面经
一些答的不好的八股问题总结 忘了很多 想到再更新答案和问题
1. llama 7b 为什么比其他基座好,与gpt3比做了什么改进:数据上质量更高,结构上用的RoPE+SwiGLUE
2. GQA可以给训练加速吗:不可以,
3. 检索增强怎么做的:
4. 长度外推除了ROPE还有什么方法(长度外推一个是训练时数据没那么长导致的一些问题,一个是计算复杂度太高没那么多资源):局部注意力(平移不变性,感受野,window),插值,flashattetion, GQA
5. Baichuan和chatglm2有什么不同,数据上,训练上,结构上
6. Visualglm图片怎么处理的:blip-qformer
7. Transformer结构,一层层讲:
8. Visualbert什么结构:前text后visual,用faster-cnn和resnet-50提取视觉特征
9. RLHF流程:一个actor,一个critic,一个reward model。将sft后的模型输出后生成回答,回答+答案输入RW得到分数(取最后一个token投影一下)
10. Reward model怎么训练的,损失函数是什么:
11. 提示工程的fewshot有什么做法:聚类
12. Chatglm2与1有什么区别:prefix-decoder回归casual-decoder(原因1.多轮对话用prefix-decoder需要构造多个数据来训练,而casual可以直接用整个多轮对话数据,等效,且各个对话的权重不一样)(这个改动导致了2维编码的去除);gelu->swiglu;RMSnorm;flashattention;MQA
13. Chatglm2对话权重不一样的原因:
14. 为什么chatglm系列的用ptuning比lora好:都是清华一个实验室出的,配套效果吧
15. Ptuning是怎么样做的大概讲讲:前面cocat可学习参数,多了一个MLP层,代码中在k,v矩阵中concat矩阵参数
16. Lora怎么做的?为什么只调q,v矩阵或者q矩阵?别人实验这样做不代表在你这个场景下这样做就是对的?:
17. 为什么模型都聚焦于decoder-only而不是encoder-only或者encoder-decoder:
18. Self-consistency是什么