首页 > 试题广场 >

在大语言模型中,什么是"Knowledge Distilla

[单选题]
在大语言模型中,什么是"Knowledge Distillation"的"温度"参数?
  • 控制教师模型输出的平滑程度,影响知识转移的软标签分布
  • 调节蒸馏过程的学习率
  • 控制教师和学生模型之间的相似度阈值
  • 决定蒸馏过程的训练轮数
在大语言模型中,“Knowledge Distillation”(知识蒸馏)是一种将复杂的大模型(教师模型)的知识转移到较小的模型(学生模型)的技术。其中,“温度”(Temperature)参数是一个关键概念,用于控制教师模型输出的概率分布的平滑程度,从而影响知识转移的效果。
在知识蒸馏过程中,教师模型的输出通常通过一个“温度”参数进行调整,以生成“软标签”(soft labels)。
温度参数 T 被引入到 softmax 函数中,公式如下:
  • 其中, 是教师模型的 logits, 是经过温度调整后的概率分布。
  •  时,概率分布会变得更加平滑(即不同类别的概率差异减小),从而为学生模型提供更多关于类别间相对关系的信息。
  •  时,softmax 的输出退化为普通的“硬标签”(hard labels),丢失了更多细粒度的知识。
发表于 2025-04-11 17:54:22 回复(0)