- Published on
概率分布-熵
统计机器翻译笔记 chapter3 概率论
数据样本集合的特性
均值
对于一个数据样本集合${x_1,x_2,...,x_n}$均值为$\overline x$
$$ \overline x=\frac{1}{n}\sum_i^nx_i
$$
方差
样本个体偏离平均值的程度。方差计算的是每个样本与均值之差的平方的算数平均值。
$$ \sigma^2=\frac{1}{n}\sum_{i}^{n}{(x_i - \overline x)^2}
$$
概率分布的特性
期望
概率分布的均值称为期望,随机变量$X$的期望定义如下:
$$ E[X]=\sum_{x\in X}xp(x)
$$
对于随机变量每个可能的取值$x_i$,与其对应概率加权求和。
方差
$$ Var[X]=\sum_{x\in X}(x-E[X])^2p(x)
$$
相当于随机变量的每个取值与期望的差 的平方的期望,可以写为
$$ Var[X]=E[(x-E[X])^2]
$$
如果从样本数据中估计概率分布,需要样本的均值与概率分布的期望相同。如果已知一个概率分布,就可以得出样本数据的均值和方差。
熵
一个随机变量X的熵为:
$$ H(X)=-\sum_{x\in X}p(x)log_2p(x)
$$
概率越大,事件发生的不确定性越小,熵越小。模型中我们通常获取更多的信息来增加确定性(减小熵)。现实系统中,通过消耗能量来增加确定性。
$p(x)=1,H(x)=0$
某一个事件有2结果,概率为1/2那么$H(x)=-(\frac{1}{2}log_21/2 + \frac{1}{2}log_21/2)=1$
联合熵
同时考虑两个随机变量x,y
$$ H(X,Y)=-\sum_{x\in X,y\in Y}p(x,y)log_2p(x,y)
$$
条件熵
简单理解,条件熵是在一个随机变量已知的情况下,另一个随机变量减少的程度。是一个非对称的度量
$$ H(Y|X)=H(X,Y)-H(X)
$$
但是不一定$H(Y|X)=H(X|Y)$
互信息
是一个对称的度量,
$$ I(X;Y)=H(X)-H(X|Y)
$$
$$ I(X;Y)=H(X)+H(Y)-H(X,Y)=\sum_{x\in X,y \in Y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}
$$
如果两个随机变量是独立的,p(x,y)=p(x)p(y)那么I(X,Y)=0。如果p(y|x)=1,那么根据贝叶斯可得p(x,y)=p(x),I(X;Y)=H(Y),X,Y的互信息包含了Y的所有不确定性
例子
| X\Y | 明天下雨 | 明天不下雨 | | ---------- | -------- | ---------- | | 今天下雨 | 0.12 | 0.08 | | 今天不下雨 | 0.08 | 0.72 |
对于两个随机变量X,Y,分别有两个取值。
X:p(今天下雨)=0.2 p(今天不下雨)=0.8
Y:p(明天下雨)=0.2 p(明天不下雨)=0.8
并且还可以获得每个取值的联合概率,如p(今天下雨,明天下雨)=0.12
$H(X)=H(Y)=-\sum_{x\in X}p(x)log_2p(x)=-(0.2log_20.2 + 0.8log_20.8)=0.722$
$H(X,Y)=-\sum_{x\in X,y\in Y}p(x,y)log_2p(x,y)=-(0.12log_20.12+0.08log_20.08+0.08log_20.08+0.72log_20.72)=1.291$
$H(Y|X)=H(X,Y)-H(X)=0.569$
$I(X;Y)=H(X)+H(Y)-H(X,Y)=0.722+0.722-1.291=0.153$
任意一天下雨的熵为0.722,如果前后两天的天气相互独立,$I(X;Y)=0,H(X,Y)=H(X)+H(Y)$,那么联合熵是0.722*2=1.444,但真实情况为1.291,表明他们之间的互信息的0.153。今天的天气使得明天天气的熵从0.722降低到了0.569.