无监督学习：k-means 与 PCA

没有标签的世界

前面几篇讲的分类器——SVM、决策树、k-NN——都需要标签：有人告诉模型"这个点是 A 类"。但现实中，标注数据是昂贵的：

无监督学习就是在没有标签的情况下发现数据的结构。两个最经典的任务：

这两个任务的几何直觉惊人地相似：聚类是「给空间染色」（跟分类一样，只是颜色是自己发现的），降维是「换一个角度看数据」。

k-means 是最直接的聚类算法。给定 $k$ （你想分几组），重复两步直到收敛：

第一步（Assignment）：把每个点划给离它最近的中心。 第二步（Update）：把每个中心挪到它管辖的点的重心。

数学上，k-means 在最小化所有点到各自中心的距离之和：

J = \sum_{i=1}^{n} \|\mathbf{x}_i - \boldsymbol{\mu}_{c_i}\|^2

其中 $c_i$ 是点 $i$ 被分配到的簇编号， $\boldsymbol{\mu}_{c_i}$ 是那个簇的中心。每一步 $J$ 都在下降，所以一定收敛。

点「下一步」看这个过程怎么跑：

迭代 0

点「下一步」：每个点划给最近的中心，然后中心挪到各自群落的重心。几步之后收敛——空间被切成 3 块 Voronoi 区域。

收敛后，空间被切成 $k$ 块 Voronoi 区域——跟 k-NN 的决策边界形状一模一样，只是这次中心不是数据点，而是自己找到的「代表」。

k-means 的三个关键性质：

k-means 不会告诉你 $k$ 应该是多少。常用的两个启发式：

肘部法（Elbow method）——画 $J$ 对 $k$ 的曲线。随着 $k$ 增大， $J$ 单调下降，但在某个点之后下降变慢（曲线出现「肘」）。拐点就是一个合理的 $k$ 。

轮廓系数（Silhouette）——对每个点算：「它离自己簇的平均距离」vs「它离最近别的簇的平均距离」。系数高意味着簇内紧、簇间疏。

两个方法都不完美——没有免费的午餐。在实际工程里（比如用户分群、embedding 聚类）， $k$ 通常由业务需求决定而不是算法决定。

主成分分析（PCA） 不是分类也不是聚类——它是换坐标。

回忆线性代数那篇的特征向量：一个对称矩阵的特征向量就是它「不被旋转」的方向。PCA 做的事就是找数据协方差矩阵的特征向量——也就是数据散布最广的方向。

具体步骤：

几何直觉：PCA 就是旋转坐标系，让第一个轴对准数据伸展最远的方向。然后你可以砍掉方差小的末几个轴——它们贡献的信息少，扔掉也不太影响。

切换下面的按钮，看 60 个点从 2D 投影到 PC1 方向：

数据沿紫色方向（PC1）散布最广。投影到 PC1 后，只丢失了很少的信息（窄方向的方差），从 2D 降到了 1D。

投影后点只在一条线上——从 2 维降到了 1 维。损失的只是垂直于 PC1 方向的那点方差（窄轴方向的信息）。如果原始数据确实主要沿一个方向分布，这个损失微乎其微。

PCA 的计算核心是奇异值分解（SVD）。对任意矩阵 $X$ ，SVD 把它分解成三部分：

X = U \Sigma V^\top

截断 SVD——只保留最大的 $k$ 个奇异值和对应的向量——就是 PCA 降维。

X \approx U_k \Sigma_k V_k^\top

这是在所有秩- $k$ 矩阵里，对 $X$ 的最优近似（Eckart–Young 定理）。「最优」的意思是 Frobenius 范数误差最小——没有任何其他 $k$ 维投影能保留更多信息。

这个定理解释了为什么 PCA/SVD 在降维上如此有效：它不是「某种还不错的降维」，而是数学上证明的最优线性降维。

聚类和降维不是历史遗产——它们以新形态活在 2026 年的每个大模型系统里：

VQ-VAE / 离散化 = k-means —— VQ-VAE 用一个 codebook 把连续表示离散化：每个向量映射到最近的 code。这就是 k-means 的 assignment 步骤。音频模型（Encodec、SoundStorm）和图像 tokenizer 都在用。
Embedding 聚类 —— 对海量文档做 embedding 后跑 k-means，就能自动发现主题（类似「发现标签」）。很多 RAG 系统用 clustering 做 chunk 去重和多样性采样。
LoRA = 低秩近似 = SVD 思想 —— LoRA 把权重更新约束为 $\Delta W = BA$ （低秩矩阵）。这和 SVD 的截断近似是同一个直觉：只在最重要的几个方向上调整。
PCA 在 Embedding 分析 —— 可视化高维 embedding 时（t-SNE、UMAP 之前），第一步往往是 PCA 降到 50 维。OpenAI 的 embedding 文档也推荐 PCA 做预处理。
Tokenizer 的 BPE = 一种聚类 —— BPE 算法反复合并最频繁的字符对，本质是在字符序列上做层次聚类。
Matryoshka Embeddings —— 训练时让 embedding 的前 $k$ 维就能独立使用（类似 PCA 保留前 $k$ 个主成分）。检索时可以用短向量加速粗筛，再用全长向量精排。
模型压缩（SVD 分解） —— 直接对训练好的权重矩阵做 SVD，保留最大的几个奇异值，减小模型大小和推理成本。

下一篇我们把线性变换和非线性激活叠起来，搭建神经网络——让模型自己学出一个比任何预设核函数都更灵活的特征映射。