以下面试题涵盖了大型语言模型(LLM)的多个方面,包括模型架构、训练、评估、优化和应用 一、模型架构与基础 简述GPT和BERT的区别 讲一下GPT系列模型是如何演进的 为什么现在的大模型大多是decoder-only的架构 简述Transformer基本原理 为什么Transformer的架构需要多头注意力机制 transformers需要位置编码吗 transformer中,同一个词可以有不同的注意力权重吗 Wordpiece与BPE之间的区别是什么 二、工作机理与生成模型 讲一下生成式语言模型的工作机理 LLM中的因果语言建模与掩码语言建模有什么区别 三、性能评估与偏见问题 ...