对概率的诠释有两大学派,一种是频率派另一种是贝叶斯派。后面我们对观测集采用下面记号:
$$
X_{N\times p}=(x_{1},x_{2},\cdots,x_{N})^{T},x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T}
$$
这个记号表示有
$$ \theta_{MLE}=\mathop{argmax}\limits _{\theta}\log p(X|\theta)\mathop{=}\limits _{iid}\mathop{argmax}\limits _{\theta}\sum\limits {i=1}^{N}\log p(x{i}|\theta) $$
贝叶斯派认为
$$
p(\theta|X)=\frac{p(X|\theta)\cdot p(\theta)}{p(X)}=\frac{p(X|\theta)\cdot p(\theta)}{\int\limits _{\theta}p(X|\theta)\cdot p(\theta)d\theta}
$$
为了求
$$
\theta_{MAP}=\mathop{argmax}\limits _{\theta}p(\theta|X)=\mathop{argmax}\limits _{\theta}p(X|\theta)\cdot p(\theta)
$$
其中第二个等号是由于分母和
频率派和贝叶斯派分别给出了一系列的机器学习算法。频率派的观点导出了一系列的统计机器学习算法而贝叶斯派导出了概率图理论。在应用频率派的 MLE 方法时最优化理论占有重要地位。而贝叶斯派的算法无论是后验概率的建模还是应用这个后验进行推断时积分占有重要地位。因此采样积分方法如 MCMC 有很多应用。
高斯分布在机器学习中占有举足轻重的作用。在 MLE 方法中:
$$ \theta=(\mu,\Sigma)=(\mu,\sigma^{2}),\theta_{MLE}=\mathop{argmax}\limits _{\theta}\log p(X|\theta)\mathop{=}\limits _{iid}\mathop{argmax}\limits _{\theta}\sum\limits {i=1}^{N}\log p(x{i}|\theta) $$ 一般地,高斯分布的概率密度函数PDF写为:
$$ p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)} $$ 带入 MLE 中我们考虑一维的情况
$$
\log p(X|\theta)=\sum\limits {i=1}^{N}\log p(x{i}|\theta)=\sum\limits {i=1}^{N}\log\frac{1}{\sqrt{2\pi}\sigma}\exp(-(x{i}-\mu)^{2}/2\sigma^{2})
$$
首先对
$$ \begin{align} \mathbb{E}{\mathcal{D}}[\sigma{MLE}^{2}]&=\mathbb{E}{\mathcal{D}}[\frac{1}{N}\sum\limits {i=1}^{N}(x{i}-\mu{MLE})^{2}]=\mathbb{E}{\mathcal{D}}[\frac{1}{N}\sum\limits {i=1}^{N}(x{i}^{2}-2x{i}\mu_{MLE}+\mu_{MLE}^{2})\nonumber \&=\mathbb{E}{\mathcal{D}}[\frac{1}{N}\sum\limits {i=1}^{N}x{i}^{2}-\mu{MLE}^{2}]=\mathbb{E}{\mathcal{D}}[\frac{1}{N}\sum\limits {i=1}^{N}x{i}^{2}-\mu^{2}+\mu^{2}-\mu{MLE}^{2}]\nonumber\ &= \mathbb{E}{\mathcal{D}}[\frac{1}{N}\sum\limits {i=1}^{N}x{i}^{2}-\mu^{2}]-\mathbb{E}{\mathcal{D}}[\mu_{MLE}^{2}-\mu^{2}]=\sigma^{2}-(\mathbb{E}{\mathcal{D}}[\mu{MLE}^{2}]-\mu^{2})\nonumber\&=\sigma^{2}-(\mathbb{E}{\mathcal{D}}[\mu{MLE}^{2}]-\mathbb{E}{\mathcal{D}}^{2}[\mu{MLE}])=\sigma^{2}-Var[\mu_{MLE}]\nonumber\&=\sigma^{2}-Var[\frac{1}{N}\sum\limits {i=1}^{N}x{i}]=\sigma^{2}-\frac{1}{N^{2}}\sum\limits {i=1}^{N}Var[x{i}]=\frac{N-1}{N}\sigma^{2} \end{align} $$ 所以: $$ \hat{\sigma}^{2}=\frac{1}{N-1}\sum\limits {i=1}^{N}(x{i}-\mu)^{2} $$
多维高斯分布表达式为:
$$
p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)}
$$
其中
$$ \Sigma^{-1}=\sum\limits {i=1}^{p}u{i}\frac{1}{\lambda_{i}}u_{i}^{T} $$
$$ \Delta=(x-\mu)^{T}\Sigma^{-1}(x-\mu)=\sum\limits {i=1}^{p}(x-\mu)^{T}u{i}\frac{1}{\lambda_{i}}u_{i}^{T}(x-\mu)=\sum\limits {i=1}^{p}\frac{y{i}^{2}}{\lambda_{i}} $$
我们注意到
下面我们看多维高斯模型在实际应用时的两个问题
-
参数
$\Sigma,\mu$ 的自由度为$O(p^{2})$ 对于维度很高的数据其自由度太高。解决方案:高自由度的来源是$\Sigma$ 有$\frac{p(p+1)}{2}$ 个自由参数,可以假设其是对角矩阵,甚至在各向同性假设中假设其对角线上的元素都相同。前一种的算法有 Factor Analysis,后一种有概率 PCA(p-PCA) 。 -
第二个问题是单个高斯分布是单峰的,对有多个峰的数据分布不能得到好的结果。解决方案:高斯混合GMM 模型。
下面对多维高斯分布的常用定理进行介绍。
我们记 $x=(x_1, x_2,\cdots,x_p)^T=(x_{a,m\times 1}, x_{b,n\times1})^T,\mu=(\mu_{a,m\times1}, \mu_{b,n\times1}),\Sigma=\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}$,已知
首先是一个高斯分布的定理:
定理:已知
$x\sim\mathcal{N}(\mu,\Sigma), y\sim Ax+b$ ,那么$y\sim\mathcal{N}(A\mu+b, A\Sigma A^T)$ 。证明:$\mathbb{E}[y]=\mathbb{E}[Ax+b]=A\mathbb{E}[x]+b=A\mu+b$,$Var[y]=Var[Ax+b]=Var[Ax]=A\cdot Var[x]\cdot A^T$。
下面利用这个定理得到
-
$x_a=\begin{pmatrix}\mathbb{I}{m\times m}&\mathbb{O}{m\times n})\end{pmatrix}\begin{pmatrix}x_a\x_b\end{pmatrix}$,代入定理中得到: $$ \mathbb{E}[x_a]=\begin{pmatrix}\mathbb{I}&\mathbb{O}\end{pmatrix}\begin{pmatrix}\mu_a\\mu_b\end{pmatrix}=\mu_a\ Var[x_a]=\begin{pmatrix}\mathbb{I}&\mathbb{O}\end{pmatrix}\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}\begin{pmatrix}\mathbb{I}\\mathbb{O}\end{pmatrix}=\Sigma_{aa} $$ 所以
$x_a\sim\mathcal{N}(\mu_a,\Sigma_{aa})$ 。 -
同样的,$x_b\sim\mathcal{N}(\mu_b,\Sigma_{bb})$。
-
对于两个条件概率,我们引入三个量: $$ x_{b\cdot a}=x_b-\Sigma_{ba}\Sigma_{aa}^{-1}x_a\ \mu_{b\cdot a}=\mu_b-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a\ \Sigma_{bb\cdot a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} $$ 特别的,最后一个式子叫做
$\Sigma_{bb}$ 的 Schur Complementary。可以看到: $$ x_{b\cdot a}=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}{n\times n}\end{pmatrix}\begin{pmatrix}x_a\x_b\end{pmatrix} $$ 所以: $$ \mathbb{E}[x{b\cdot a}]=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}{n\times n}\end{pmatrix}\begin{pmatrix}\mu_a\\mu_b\end{pmatrix}=\mu{b\cdot a}\ Var[x_{b\cdot a}]=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}{n\times n}\end{pmatrix}\begin{pmatrix}\Sigma{aa}&\Sigma_{ab}\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}\begin{pmatrix}-\Sigma_{aa}^{-1}\Sigma_{ba}^T\\mathbb{I}{n\times n}\end{pmatrix}=\Sigma{bb\cdot a} $$ 利用这三个量可以得到$x_b=x_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a$ 。因此: $$ \mathbb{E}[x_b|x_a]=\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a $$$$ Var[x_b|x_a]=\Sigma_{bb\cdot a} $$
这里同样用到了定理。
-
同样: $$ x_{a\cdot b}=x_a-\Sigma_{ab}\Sigma_{bb}^{-1}x_b\ \mu_{a\cdot b}=\mu_a-\Sigma_{ab}\Sigma_{bb}^{-1}\mu_b\ \Sigma_{aa\cdot b}=\Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba} $$ 所以: $$ \mathbb{E}[x_a|x_b]=\mu_{a\cdot b}+\Sigma_{ab}\Sigma_{bb}^{-1}x_b $$
$$ Var[x_a|x_b]=\Sigma_{aa\cdot b} $$
下面利用上边四个量,求解线性模型:
已知:$p(x)=\mathcal{N}(\mu,\Lambda^{-1}),p(y|x)=\mathcal{N}(Ax+b,L^{-1})$,求解:$p(y),p(x|y)$。
解:令
$y=Ax+b+\epsilon,\epsilon\sim\mathcal{N}(0,L^{-1})$ ,所以$\mathbb{E}[y]=\mathbb{E}[Ax+b+\epsilon]=A\mu+b$ ,$Var[y]=A \Lambda^{-1}A^T+L^{-1}$,因此: $$ p(y)=\mathcal{N}(A\mu+b,L^{-1}+A\Lambda^{-1}A^T) $$ 引入 $z=\begin{pmatrix}x\y\end{pmatrix}$,我们可以得到$Cov[x,y]=\mathbb{E}[(x-\mathbb{E}[x])(y-\mathbb{E}[y])^T]$ 。对于这个协方差可以直接计算: $$ \begin{align} Cov(x,y)&=\mathbb{E}[(x-\mu)(Ax-A\mu+\epsilon)^T]=\mathbb{E}[(x-\mu)(x-\mu)^TA^T]=Var[x]A^T=\Lambda^{-1}A^T \end{align} $$ 注意到协方差矩阵的对称性,所以 $p(z)=\mathcal{N}\begin{pmatrix}\mu\A\mu+b\end{pmatrix},\begin{pmatrix}\Lambda^{-1}&\Lambda^{-1}A^T\A\Lambda^{-1}&L^{-1}+A\Lambda^{-1}A^T\end{pmatrix})$。根据之前的公式,我们可以得到: $$ \mathbb{E}[x|y]=\mu+\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}(y-A\mu-b) $$
$$ Var[x|y]=\Lambda^{-1}-\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}A\Lambda^{-1} $$