首页 > 试题广场 >

请你说一说交叉熵

[问答题]

请你说一说交叉熵,也可以再说一下其他的你了解的熵

信息熵

就被称为随机变量的熵,它是表示随机变量不确定的度量,是对所有可能发生的事件产生的信息量(自变量x的信息量为)的期望。从公式可得,随机变量的取值个数越多,状态数也就越多,信息熵就越大,混乱程度就越大。当随机分布为均匀分布时,熵最大.

条件熵 (Conditional entropy)

条件熵表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。条件熵 H(Y|X) 定义为 X 给定条件下 Y 的条件概率分布的熵对 X 的数学期望

条件熵H(Y|X)相当于联合熵H(X,Y)减去单独的熵H(X),即

相对熵 (Relative entropy),也称KL散度 (Kullback–Leibler divergence)

相对熵可以用来衡量两个概率分布之间的差异,上面公式的意义就是求p与q之间的对数差在p上的期望值。

设p(x)、q(x)是离散随机变量X中取值的两个概率分布,则p对q的相对熵是:

交叉熵 (Cross entropy)

现在有关于样本集的两个概率分布p(x)和q(x),其中p(x)为真实分布,q(x)非真实分布。如果用真实分布p(x)来衡量识别别一个样本所需要编码长度的期望(平均编码长度)为:

如果使用非真实分布q(x)来表示来自真实分布p(x)的平均编码长度,则是:

(因为用 q(x) 来编码的样本来自于分布 q(x) ,所以 H(p,q) 中的概率是 p(x))。此时就将 H(p,q) 称之为交叉熵。举个例子。考虑一个随机变量 x,真实分布
由此可以看出根据非真实分布 q(x) 得到的平均码长大于根据真实分布 p(x) 得到的平均码长。

我们再化简一下相对熵的公式。

有没有发现什么?

熵的公式

交叉熵的公式

所以有: (当用非真实分布 q(x) 得到的平均码长比真实分布 p(x) 得到的平均码长多出的比特数就是相对熵)

编辑于 2019-06-07 11:31:54 回复(0)