KL距离（相对熵）

KL距离，是Kullback-Leibler差异（Kullback-Leibler Divergence）的简称，也叫做相对熵（Relative Entropy）。它衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是：在相同事件空间里，概率分布P(x)对应的每个事件，若用概率分布 Q(x)编码时，平均每个基本事件（符号）编码长度增加了多少比特。我们用D（P||Q）表示KL距离，计算公式如下：

当两个概率分布完全相同时，即P(X)=Q(X)，其相对熵为0 。我们知道，概率分布P(X)的信息熵为：

其表示，概率分布P(x)编码时，平均每个基本事件（符号）至少需要多少比特编码。通过信息熵的学习，我们知道不存在其他比按照本身概率分布更好的编码方式了，所以D(P||Q）始终大于等于0的。虽然KL被称为距离，但是其不满足距离定义的三个条件：1）非负性（满足）；2）对称性（不满足）；3）三角不等式（不满足）。

我们以一个例子来说明，KL距离的含义。

假如一个字符发射器，随机发出0和1两种字符，真实发出概率分布为A，但实际不知道A的具体分布。现在通过观察，得到概率分布B与C。各个分布的具体情况如下：

A(0)=1/2，A(1)=1/2

B(0)=1/4，B(1)=3/4

C(0)=1/8，C(1)=7/8

那么，我们可以计算出得到如下：