[TOC]
- 无监督学习基本原理
- 基本问题
- 机器学习三要素
- 无监督学习方法
-
在这部分强调了样本(实例),由特征向量组成。
-
无监督学习的基本问题是聚类,降维,概率估计,对应的输出是类别,转换,概率。
-
无监督学习的模型是$z=g_{\theta}(x)$(硬聚类),条件概率分布$\color{red}P_{\theta}(z|x)$(软聚类)或条件概率分布$\color{green}P_{\theta}(x|z)$(概率模型估计)
-
软聚类可以看成是概率模型估计问题,根据贝叶斯公式 $$ \color{red}P_\theta(z|x)\color{black}=\frac{P_\theta(x|z)P_\theta(z)}{P_\theta(x)}\varpropto \underbrace{P_\theta(z)}{假设服从均匀分布}P\theta(x|z)\varpropto \color{green}P_\theta(x|z) $$ 假设先验概率服从均匀分布,$P_\theta(z)$就是常数,先验后验成正比。
-
训练数据可以用$M\times N$矩阵表示,注意这里矩阵的每一行对应特征,每一列对应一个样本,回想在之前监督学习部分,也是用$N$表示样本的个数。但是这里面其实稍微有一点点尴尬,在监督学习部分,特征的维数用$n$表示,样本数量用$N$表示,在无监督学习部分,特征的维数用$m$表示,样本的数量用$n$表示。
-
无监督学习可以用于数据分析或者监督学习的前处理
-
无监督学习通常需要大量的数据,因为对数据隐藏的规律的发现需要足够的观测
。反过来看,当我们拥有大量数据的时候,可以考虑通过无监督学习的方式来发现数据中隐藏的规律。有的时候我们需要从问题的角度出发来寻找解决方案,而有的时候,我们需要从自身的角度出发,来看能做些什么。不同的岗位看问题的角度不同,但是岗位的差异并不应该限制你思考问题的维度。 -
这章的参考文献和第一章的基本一样,去掉了Sutton的强化学习。
-
降维部分有提到manifold,这个书中应该是没有展开,可以参考scikit-learn中相关部分。
符号说明
训练数据集$X$ $$ X=\left[ \begin{matrix} x_{11} & \cdots & x_{1N} \ \vdots & & \vdots \ x_{M1} & \cdots & x_{MN} \ \end{matrix} \right] $$
发现数据中的纵向结构
硬聚类 $$ z=g_\theta(x) $$ 软聚类 $$ P_\theta(z|x) $$
发现数据中的横向结构
$$
z=g_\theta(x)
$$
找到最有可能生成数据的结构和参数。
模型,策略,算法,这部分概括下和监督学习主要的区别在模型差异,至于策略和算法,大体路子和监督学习差不多,具体问题具体分析。
关于模型,上一小节有介绍,这一小节简单重复下,将在下一小节展开,并在后续章节详细说明。
关于策略,各自目标函数的优化过程,比如聚类样本与所属类别中心距离的最小化,降维过程信息损失的最小化,概率模型估计过程中生成数据概率的最大化。
关于算法,迭代算法,梯度下降打天下。
CH14,主要是数据硬聚类,Kmeans,层次聚类,软聚类在之前的EM算法部分已经讲过,比如高斯混合模型。
这部分先写了第16章介绍PCA,然后说的第15章。因为PCA是无监督学习方法,SVD是基础学习方法。后面话题分析部分也是这样的顺序。
LSA,PLSA,LDA是无监督学习方法,MCMC是基础的学习方法。
PageRank,Page是个人名。
发现隐藏在图中的统计规律或潜在结构。