Published on

概率分布-熵

统计机器翻译笔记 chapter3 概率论

数据样本集合的特性

均值

对于一个数据样本集合${x_1,x_2,...,x_n}$均值为$\overline x$

$$ \overline x=\frac{1}{n}\sum_i^nx_i

$$

方差

样本个体偏离平均值的程度。方差计算的是每个样本与均值之差的平方的算数平均值。

$$ \sigma^2=\frac{1}{n}\sum_{i}^{n}{(x_i - \overline x)^2}

$$

概率分布的特性

期望

概率分布的均值称为期望,随机变量$X$的期望定义如下:

$$ E[X]=\sum_{x\in X}xp(x)

$$

对于随机变量每个可能的取值$x_i$,与其对应概率加权求和。

方差

$$ Var[X]=\sum_{x\in X}(x-E[X])^2p(x)

$$

相当于随机变量的每个取值与期望的差 的平方的期望,可以写为

$$ Var[X]=E[(x-E[X])^2]

$$

如果从样本数据中估计概率分布,需要样本的均值与概率分布的期望相同。如果已知一个概率分布,就可以得出样本数据的均值和方差。

一个随机变量X的熵为:

$$ H(X)=-\sum_{x\in X}p(x)log_2p(x)

$$

概率越大,事件发生的不确定性越小,熵越小。模型中我们通常获取更多的信息来增加确定性(减小熵)。现实系统中,通过消耗能量来增加确定性。

$p(x)=1,H(x)=0$

某一个事件有2结果,概率为1/2那么$H(x)=-(\frac{1}{2}log_21/2 + \frac{1}{2}log_21/2)=1$

联合熵

同时考虑两个随机变量x,y

$$ H(X,Y)=-\sum_{x\in X,y\in Y}p(x,y)log_2p(x,y)

$$

条件熵

简单理解,条件熵是在一个随机变量已知的情况下,另一个随机变量减少的程度。是一个非对称的度量

$$ H(Y|X)=H(X,Y)-H(X)

$$

但是不一定$H(Y|X)=H(X|Y)$

互信息

是一个对称的度量,

$$ I(X;Y)=H(X)-H(X|Y)

$$

$$ I(X;Y)=H(X)+H(Y)-H(X,Y)=\sum_{x\in X,y \in Y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}

$$

如果两个随机变量是独立的,p(x,y)=p(x)p(y)那么I(X,Y)=0。如果p(y|x)=1,那么根据贝叶斯可得p(x,y)=p(x),I(X;Y)=H(Y),X,Y的互信息包含了Y的所有不确定性

例子

| X\Y | 明天下雨 | 明天不下雨 | | ---------- | -------- | ---------- | | 今天下雨 | 0.12 | 0.08 | | 今天不下雨 | 0.08 | 0.72 |

对于两个随机变量X,Y,分别有两个取值。

X:p(今天下雨)=0.2 p(今天不下雨)=0.8

Y:p(明天下雨)=0.2 p(明天不下雨)=0.8

并且还可以获得每个取值的联合概率,如p(今天下雨,明天下雨)=0.12

$H(X)=H(Y)=-\sum_{x\in X}p(x)log_2p(x)=-(0.2log_20.2 + 0.8log_20.8)=0.722$

$H(X,Y)=-\sum_{x\in X,y\in Y}p(x,y)log_2p(x,y)=-(0.12log_20.12+0.08log_20.08+0.08log_20.08+0.72log_20.72)=1.291$

$H(Y|X)=H(X,Y)-H(X)=0.569$

$I(X;Y)=H(X)+H(Y)-H(X,Y)=0.722+0.722-1.291=0.153$

任意一天下雨的熵为0.722,如果前后两天的天气相互独立,$I(X;Y)=0,H(X,Y)=H(X)+H(Y)$,那么联合熵是0.722*2=1.444,但真实情况为1.291,表明他们之间的互信息的0.153。今天的天气使得明天天气的熵从0.722降低到了0.569.