首页 > 试题广场 >

在大语言模型中，什么是"Knowledge Distilla

[单选题]

在大语言模型中，什么是"Knowledge Distillation"的"温度"参数？

控制教师模型输出的平滑程度，影响知识转移的软标签分布

控制教师和学生模型之间的相似度阈值

查看正确选项

活跃的芝士在被拷

在大语言模型中，“Knowledge Distillation”（知识蒸馏）是一种将复杂的大模型（教师模型）的知识转移到较小的模型（学生模型）的技术。其中，“温度”（Temperature）参数是一个关键概念，用于控制教师模型输出的概率分布的平滑程度，从而影响知识转移的效果。

在知识蒸馏过程中，教师模型的输出通常通过一个“温度”参数进行调整，以生成“软标签”（soft labels）。

温度参数 $T$ 被引入到 softmax 函数中，公式如下：

$q_{i}=\frac{exp(z_{i}/T)}{{\textstyle \sum_{j}^{}}exp(z_{j}/T)}$

发表于 2025-04-11 17:54:22 回复(0)

提交观点

问题信息

大模型开发

难度：

1条回答 0收藏 21浏览

扫一扫，把题目装进口袋