1. 基本概念

1.1 定义

聚类：发现数据中分组聚集的结构，根据数据中样本与样本之间的距离或相似度，依据类内样本距离小（相似度大）、类间样本距离大（相似度小）将样本划分为若干组/类/簇。
- 基于划分的聚类：无嵌套，将所有样本划分到互不重叠的子集（簇），且使得每个样本仅属于一个子集。
- 层次聚类：有嵌套，树形聚类结构，在不同层次对数据集进行划分，簇之间存在嵌套。
簇集合的其他区别
- 独占vs非独占：在非独占的簇中，样本点可以属于多个簇。
- 模糊vs非模糊：在模糊聚类中，一个样本点以一定的权重属于各个聚类簇。
- 部分vs完备：部分聚类只聚类部分数据。
- 异质vs同质：簇的大小、行政和密度是否有很大的差别。
簇的类型
- 明显分离的簇
- 基于中心的簇：簇内点和其“中心”较为相近，和其他簇的“中心”较远，球状簇。
- 基于邻近（连续）的簇：相比其他任何簇的点，每个点都至少和所属簇的某一个点更近。
- 基于密度的簇：簇是由高密度的区域形成的，簇之间是一些低密度区域。
- 基于概念的簇：同一个簇共享某种性质，整个性质是从整个集合推导出来的。

1.2 距离度量函数

距离度量函数应满足条件：

非负性： $dist(x_i,y_j)\ge0$
不可分的同一性： $dist(x_i,y_j)=0\quad if\quad x_i=x_j$
对称性： $dist(x_i,y_j)=dist(x_j,x_i)$
三角不等式： $dist(x_i,x_j)\le dist(x_i,x_k)+dist(x_k,x_j)$

数据预处理：

StandardScaler：对特征矩阵的列，将特征值取值范围标准化（0均值，1方差）
MinMaxScaler：对特征矩阵的列，将特征值缩放到[0,1]区间
Normalizer：对特征矩阵的行，将每个样本缩放到单位向量

距离函数：

闵可夫斯基距离： $dist(x_i,x_j)=\big(\sum_{d=1}^D|x_{id}-x_{jd}|^p\big)^\frac{1}{p}$
- p=1时，为曼哈顿距离
- p=2时，为欧式距离
对样本特征的旋转和平移变换不敏感，对数值尺度敏感（故需要标准化处理）
余弦相似度：两变量看作高维空间的两个向量，两个向量的夹角余弦即为余弦相似度

$s(x_i,x_j)=\frac{\sum_{d=1}^Dx_{id}x_{jd}}{\sqrt{\sum_{d=1}^Dx_{id}^2}\sqrt{\sum_{d=1}^Dx_{jd}^2}}=\frac{x_i^Tx_j}{\Vert x_i \Vert\Vert x_j \Vert}$
相关系数：当对数据做中心化后，相关系数等于余弦相似度

$r(x_i,x_j)=\frac{cov(x_i,x_j)}{\sigma_{x_i}\sigma_{x_j}}=\frac{E[(x_i-\mu_i)(x_j-\mu_j)]}{\sigma_{x_i}\sigma_{x_j}}= \frac{\sum_{d=1}^D(x_{id}-\mu_{id})(x_{jd}-\mu_{jd})}{\sqrt{\sum_{d=1}^D(x_{id}-\mu_{id})^2}\sqrt{\sum_{d=1}^D(x_{jd}-\mu_{jd})^2}}$
杰卡德相似系数

$J(x_i,x_j)=\frac{\sum_{k=1}^D(x_{ik}\bigcap x_{jk})}{\sum_{k=1}^D(x_{ik}\bigcup x_{jk})}$

1.3 聚类性能评价指标

外部评价法：聚类结果与参考结果有多接近

$\#\{(x_i,x_j)|x_i,x_j\in C_k;x_i,x_j\in C^*_l\} \\ d = \#\{(x_i,x_j)|x_i\in C_{k_1},x_j\in C_{k_2};x_i\in C^*_{l_1},x_j\in C^*_{l_2}\} \\ b = \#\{(x_i,x_j)|x_i,x_j\in C_k;x_i\in C^*_{l_1},x_j\in C^*_{l_2}\} \\ c = \#\{(x_i,x_j)|x_i\in C_{k_1},x_j\in C_{k_2};x_i,x_j\in C^*_l\}$
- Jaccard系数： $=\frac{a}{a+b+c}$
- FMI指数： $\sqrt{\frac{a}{a+b}\frac{a}{a+c}}$
- Rand指数： $RI=\frac{2(a+d)}{N(N-1)}$
内部评价法：聚类的本质特点（无参考结果）

簇内相似度越高，聚类质量越好；簇间相似度越低，聚类质量越好。
- 簇内相似度
  - 平均距离： $avg(C_m)=\frac{1}{|C_m|(|C_m|-1)}\sum_{x_i,x_j \in C_m}dist(x_i,x_j)$
  - 最大距离： $diam(C_m)=max_{x_i,x_j\in C_m}dist(x_i,x_j)$
  - 簇的半径： $diam(C_m)=\sqrt{\frac{1}{|C_m|}\sum_{x_i\in C_m}(dist(x_i,\mu_m))^2},\quad \mu_m=\frac{1}{|C_m|}\sum_{x_i\in C_m}x_i$
- 簇间相似度
  - 最小距离： $d_{min}(C_m,C_n)=min_{x_i\in C_m,x_j\in C_n}dist(x_i,x_j)$
  - 类中心之间的距离: $d_{cen}(C_m,C_n)=dist(\mu_m,\mu_n),\quad \mu_m=\frac{1}{|C_m|}\sum_{x_i\in C_m}x_i$
- DB指数：DBI越小，聚类质量越好
  
  $DBI=\frac{1}{M}\sum_{m=1}^M\max_{m\neq n}\frac{avg(C_m)+avg(C_n)}{d_{cen}(C_m,C_n)}$
- Dunn指数：DI越大，聚类质量越好
  
  $DI=\min_{1\le <n\le M}\frac{d_{min}(C_m,C_n)}{\max_{1\le m \le M }diam(C_m)}$

2. 常见聚类算法

2.1 K均值聚类算法

伪代码：

输入：n个样本点的集合 ${ x_1,x_2,...,x_n\}$ ，聚类中心数目K；

输出：样本集合的聚类 ${{C_1,C_2,...,C_k}\}$

（1）初始化。 $t = 0$ ，随机选择K个样本点作为聚类中心 $m^{(0)}=(m^{(0）}_1,m^{(0)}_2,...,m^{(0)}_k)$

（2）对样本进行聚类。对聚类中心 $m^{(t)}=(m^{(t）}_1,m^{(t)}_2,...,m^{(t)}_k)$ ，计算每个样本到各个聚类中心的距离，并将其指派到距离最近的中心当中，构成聚类结果 $C^{(t)}$

（3）计算新的聚类中心。对于聚类结果 $C^{(t)}$ ，计算新的聚类中心 $m^{(t+1)}=(m^{(t+1）}_1,m^{(t+1)}_2,...,m^{(t+1)}_k)$

（4）如果迭代收敛或符合停止条件，输出 $C^*=C^(t)$ ，否则，令 $t = t + 1$ ，返回步（2）

从优化角度看待K均值聚类算法的求解：

损失函数： $J=\sum_{i=1}^N\sum_{l=1}^Kr_{ik}\Vert x_i-\mu_k\Vert^2$ ，其中 $r_{ik}$ 为从属度
采用坐标轴下降法迭代求解 $\mu_k$ 和 $r_{ik}$

由于 $J$ 是非凸的，所以坐标下降方法并不一定能保证找到全局最小值

初始化K-means的方法

随机初始化
随机确定第一个类的中心，其他类的位置尽量远离已有中心

K的选择

间隔统计
交叉验证
簇的稳定性
非参数方法
用监督学习任务校验集上的评价指标选择K

K-means的局限性

没有考虑簇的尺度
没有考虑簇的密度
没有考虑非球形簇
容易受离群点干扰–>K-medoids

2.2 高斯混合模型和EM算法

高斯混合分布有：
$p(x|\theta)=\sum_{k=1}^K\pi_k \mathcal N(x|\mu_k,\Sigma_k)$
定义离散隐变量 $z$ ， $z$ 为 $1{-} of{-}K$ 形式的向量，只有某个元素的 $z_k$ 为1，其他元素均为0， $z$ 与 $x$ 有如下概率图关系：

定义 $x$ 和 $z$ 的联合分布 $p (x, z)$ ， $z$ 的边缘分布 $p (z)$ ，条件分布 $p (x ∣ z)$

依据隐变量 $z$ 的每一个维度对应 $x$ 的每一个维度上是一个高斯分布有：
$p(z_k=1)=\pi_k\\ p(x|z_k=1)=\mathcal N(x|\mu_k,\Sigma_k )$
则可定义 $p (z)$ 和 $p (x ∣ z)$ 有：
$p(z)=\prod_{k=1}^K\pi^{z_k}\\ p(x|z)=\prod_{k=1}^K \mathcal N(x|\mu_k,\Sigma_k)^{z_k}$
则 $x$ 的边缘分布有：
$\begin{aligned} p(x)&=\sum_z p(z)p(x|z)\\ &=\sum_{k=1}^K\pi_k\mathcal N(x|\mu_k,\Sigma_k) \end{aligned}$
联合分布有：
$p(X,Z|\mu,\Sigma,\pi)=\prod_{n=1}^N\prod_{k=1}^K\pi^{z_{nk}}\mathcal N(x_n|\mu_k,\Sigma_k)^z_{nk}$

到此得到了一个包含隐变量的联合分布。同时有后验概率：
$\begin{aligned} \gamma(z_k=1)&=p(z_k=1|x)\\ &=\frac{p(z_k=1)p(x|z_k=1)}{\sum_{j=1}^Kp(z_j=1)p(x|z_j=1)}\\ &=\frac{\pi_k \mathcal N(x|\mu_k,\Sigma_k)}{\sum_{j=1}^K\pi_j \mathcal N(x|\mu_j,\Sigma_j)} \end{aligned}$

2.2.1 最大似然

假设有观测样本集 ${x_1,...,x_N\}$ ，样本集中每个样本都是独立的从分布 $x$ 中生成的，则可得似然函数:
$P(X|\pi,\mu,\Sigma)=\prod_{i=1}^Np(x_i|\pi,\mu,\Sigma)\\ logP(X|\pi,\mu,\Sigma)=\sum_{i=1}^Nln\big\{ \sum_{k=1}^K\pi_k\mathcal N(x_i|\mu_k,\Sigma_k)\big\}$

最大似然法存在的问题：

某个高斯成分可能会坍缩到某个具体的样本点上，此时该成分贡献了无限大的似然值，导致其他高斯成分将几乎没有贡献
一个 $K$ 个成分的混合模型，将有 $K!$ 个完全相同的最优解，这些解的值是相同的，但对模型的可解释性造成了困难
log函数内为多个高斯函数的求和，导致log不能直接作用域单个高斯函数，对求闭式解造成了困难

2.2.2 EM算法求解高斯混合模型的最大似然

似然函数对 $\mu_k$ 求偏导等于0得：
$\begin{aligned} 0&=-\sum_{i=1}^N\frac{\pi_k\mathcal N(x_i|\mu_k,\Sigma_k)}{\sum_j^K\pi_k\mathcal N(x_i|\mu_j,\Sigma_j)}\Sigma_k(x_i-\mu_k)\\ &=-\sum_{i=1}^N\gamma(z_{ik})\Sigma_k(x_i-\mu_k) \end{aligned}$
解得：
$\mu_k=\frac{1}{N_k}\sum_{i=1}^N\gamma(z_{ik})x_i\\ N_k=\sum_{i=1}^N\gamma(z_{ik})$
可以解释 $N_k$ 为被分到簇 $k$ 得点得数目。

似然函数对 $\Sigma_k$ 求偏导等于0得：
$\Sigma_k = \frac{1}{N_k}\sum_{i=1}^N\gamma(z_{ik})(x_i-\mu_k)(x_i-\mu_k)^T$
求解 $\pi_k$ 需要满足约束 $\sum_ {k=1}^N\pi_k=1$ ，采用拉格朗日乘子法有：
$lnp(X|\pi,\mu,\Sigma)+\lambda\bigg(\sum_{k=1}^K\pi_k-1\bigg)$
对 $\pi _k$ 求导等于0得：
$=\sum_{i=1}^N\frac{\mathcal N(x_i|\mu_k,\Sigma_k)}{\sum_j^K\pi_k\mathcal N(x_i|\mu_j,\Sigma_j)}+\lambda$
解的：
$\pi_k=\frac{N_k}{N}$
因为 $\gamma(z_{ik})$ 以一种复杂的方式依赖 $\mu _k,\Sigma_k,\pi_k$ ，故这样得出来的 $\mu _k,\Sigma_k,\pi_k$ 并不构成一个闭式解，但给出了一种迭代机制来找出最大似然的解，即EM算法。

用于高斯混合模型的EM算法

初始化 $\mu_k,\Sigma_k,\pi_k$ ，估计似然函数的初始值

E step. 计算从属度（责任值）
$\gamma(z_k=1)=\frac{\pi_k \mathcal N(x|\mu_k,\Sigma_k)}{\sum_{j=1}^K\pi_j \mathcal N(x|\mu_j,\Sigma_j)}$

M step. 使用当前责任值重新估计参数
$\mu_k=\frac{1}{N_k}\sum_{i=1}^N\gamma(z_{ik})x_i\\ \Sigma_k = \frac{1}{N_k}\sum_{i=1}^N\gamma(z_{ik})(x_i-\mu_k)(x_i-\mu_k)^T\\ \pi_k=\frac{N_k}{N}\\ where\quad N_k=\sum_{i=1}^N\gamma(z_{ik})$

计算似然函数值
$logP(X|\pi,\mu,\Sigma)=\sum_{i=1}^Nln\big\{ \sum_{k=1}^K\pi_k\mathcal N(x_i|\mu_k,\Sigma_k)\big\}$
检查参数或似然函数值的收敛性没，如果不满足收敛检验则回到step 2

2.2.3 一般形式的EM算法

EM算法是一种迭代式算法，用于含有隐变量的概率参数模型的最大似然估计或极大后验概率估计，核心思想是用观测数据 $X$ 和现有模型 $\theta$ 估计隐变量的后验概率，再用隐变量的后验概率计算似然函数的期望来替换似然函数（对这个式子2.2.4有更漂亮的理论解释）：
$\begin{aligned} \max lnP(X,Z|\theta)=\max\sum_zP(z|X,\theta^{old})lnP(X,z|\theta) \end{aligned}$
一般形式的EM算法

给出观测变量 $X$ 和隐变量 $Z$ 在参数 $\theta$ 统治下的联合分布 $p(X,Z|\theta)$ ，目标是寻找 $\theta$ 使得似然函数 $p(X|\theta)$ 最大

初始化参数 $\theta^{old}$

E step 计算 $p(Z|X,\theta^{old})$

M step 计算
$\theta^{new}=\underset{\theta}{\operatorname{arg\,max}}\, \begin{cases} \mathcal Q(\theta,\theta^{old}) \quad 最大似然估计&\\ \mathcal Q(\theta,\theta^{old}) +lnp(\theta) \quad 最大后验估计 \end{cases}\\ \mathcal Q(\theta,\theta^{old})=\sum_ZP(Z|X,\theta^{old})lnP(X,Z|\theta)$

检查似然函数或者参数是否满足收敛条件，如果不满足$\theta^{old} \leftarrow \theta $ 回到step 2

2.2.4 更理论化的EM算法

有观测变量 $X$ 、离散隐变量 $Z$ 和由参数$\theta $控制的联合分布$ p(X,Z|\theta )$，目标是求边际分布的最大似然：
$p(X|\theta)=\sum_Zp(X,Z|\theta)$
假定直接优化 $p(X|\theta )$ 是困难的，但是优化 $p(X,Z|\theta )$ 较容易，则log似然可以分解得到：
$\ln p(X|\theta) = \mathcal L(q,\theta)+KL(q||p)\\ \mathcal L(q,\theta) = \sum_Zq(Z)\ln \bigg\{\frac{p(X,Z|\theta)}{q(Z)}\bigg\}\\ KL(q||p)=-\sum_Zq(Z)\ln\bigg\{\frac{p(Z|X,\theta)}{q(Z)}\bigg\}$
又 $KL(p||q)\ge0$ ，则 $\ln p(X|\theta)\ge \mathcal L(q,\theta)$ ，即$ \mathcal L(q,\theta) $为$ \ln p(X|\theta)$的下界

E步： $\theta^{old}$ 固定，优化 $q (Z)$ 来使$ \mathcal L(q,\theta)$最大

$\ln p(X|\theta)$ 不依赖于 $q (Z)$ ，所以当 $K L (p ∣ ∣ q) = 0$ 时， $\mathcal L(q,\theta)$ 有最大，此时 $q(Z)=p(Z|X,\theta^{old})$

在这里插入图片描述

M步： $q (Z)$ 固定，优化 $\theta$ 来增大$ \mathcal L(q,\theta) $，由于$ KL(p||q)\ge0 $，所以$ \mathcal L(q,\theta)$的增大也导致似然的下界增大
$\begin{aligned} \mathcal L(q,\theta)&=\sum_Zp(Z|X,\theta^{old})\ln p(X,Z|\theta)-\sum_Zp(Z|X,\theta^{old})\ln p(Z|X,\theta^{old})\\ &= \mathcal Q(\theta,\theta^{old})+const \end{aligned}$

在这里插入图片描述

同理，当问题为求解最大后验概率时有：
$\begin{aligned} \ln p(\theta|X)&=\mathcal L(q|\theta)+KL(p||q)+\ln p(\theta)-\ln p(X)\\ &\ge \mathcal L(q,\theta)+\ln p(\theta)-\ln p(X) \end{aligned}$
求解时，只需稍微修改M步就行