本文旨在从线性代数的角度解释机器学习中的核心模型——线性回归与主成分分析(PCA)。通过几何与代数双重视角揭示它们背后的结构、优化原理与直觉意义。
1. 线性代数与机器学习的内在联系
机器学习模型几乎都建立在线性代数的框架之上:
- 数据集由矩阵 $X \in \mathbb{R}^{n\times d}$ 表示,行对应样本,列对应特征
- 参数或模型权重是向量 $w \in \mathbb{R}^d$
- 学习目标通常是最小化某种距离或投影误差,即最小化 $|Xw - y|^2$
在几何意义上,这就是寻找 $y$ 在由 $X$ 的列空间所张成的子空间上的正交投影
2. 线性回归的几何本质
2.1 模型与目标函数
线性回归假设:
$$ y = Xw + \varepsilon $$
其中 $\varepsilon$ 是噪声
目标:最小化平方误差
$$ J(w) = |Xw - y|^2 $$
2.2 正规方程的推导
对 $J(w)$ 求梯度并令其为零:
$$ \nabla_w J(w) = 2X^T(Xw - y) = 0 \Rightarrow X^TXw = X^Ty $$
若 $X^TX$ 可逆,则最优解:
$$ \boxed{w^* = (X^TX)^{-1}X^Ty} $$
2.3 几何解释:正交投影
$Xw^*$ 是 $y$ 在 $X$ 的列空间 $\mathcal{C}(X)$ 上的正交投影:
$$ X^T(y - Xw^*) = 0 $$
换言之,残差向量 $r = y - Xw^*$ 与列空间正交
直观理解:线性回归寻找"最近的线性子空间"使得预测值与观测值的距离平方最小
2.4 奇异值分解(SVD)视角
将 $X$ 做 SVD:
$$ X = U\Sigma V^T $$
则:
$$ w^* = V\Sigma^{-1}U^Ty $$
该式表明:
- $U$:定义数据的主方向
- $\Sigma$:对应方向上的伸缩比例
- $V$:定义参数空间的基
通过 SVD 可解释病态情况(例如 $X^TX$ 不可逆时使用伪逆):
$$ X^+ = V\Sigma^+ U^T, \quad w^* = X^+ y $$
3. 主成分分析(PCA)与降维
3.1 问题定义
给定中心化数据矩阵 $X\in\mathbb{R}^{n\times d}$,PCA 旨在寻找低维子空间(维度 $k<d$)使得投影后保留最大方差
等价形式:最大化投影方差
$$ \max_{W^TW=I_k} \operatorname{Tr}(W^T S W), \quad S = \frac{1}{n} X^TX \text{(协方差矩阵)} $$
3.2 特征分解视角
对 $S$ 做特征分解:
$$ S = V\Lambda V^T, \quad \Lambda = \operatorname{diag}(\lambda_1, \dots, \lambda_d), \quad \lambda_1\ge\cdots\ge\lambda_d\ge0 $$
最优投影方向为 $V_k = [v_1,\dots,v_k]$,对应最大 $k$ 个特征值。投影结果:
$$ Z = XV_k $$
几何上,这相当于在数据分布方差最大的方向上重新建立坐标系
3.3 SVD 与 PCA 的等价
对中心化数据矩阵 $X$ 进行 SVD:
$$ X = U\Sigma V^T $$
则:
- 右奇异向量 $V$ 为 PCA 的主成分方向
- 奇异值平方 $\Sigma^2/n$ 为协方差矩阵的特征值
因此:
$$ S = \frac{1}{n} X^TX = V \frac{\Sigma^2}{n} V^T $$
PCA 本质上就是在奇异值最大的方向上投影数据
3.4 几何直觉
想象一群点分布在高维空间:
- 第一主成分是数据延展方向最长的轴
- 第二主成分与第一主成分正交,捕获剩余最大方差
最终,PCA 通过构造一个新的正交坐标系,使大部分方差集中在前几维
4. 线性代数与优化的统一直觉
| 模型 | 优化目标 | 几何意义 | 线性代数解释 |
|---|---|---|---|
| 线性回归 | 最小化 $\lvert Xw - y^2 \rvert$ | 投影到列空间 | 解正规方程 $X^TXw=X^Ty$ |
| PCA | 最大化方差 $w^T S w$ | 寻找主方向 | 解特征方程 $S w = \lambda w$ |
两者都是 二次优化问题:
- 线性回归:最小化二次形式
- PCA:最大化二次形式
几何上,一个是"逼近",另一个是"捕捉"
5. 实践直觉与可视化
5.1 线性回归的几何投影图
y
|\
| \
| \
| \ ← 投影到列空间
|____\__________ x
Xw*$y$ 被垂直投影到由 $X$ 张成的平面,投影点即预测值
5.2 PCA 的主方向可视化
^ PC1 (最大方差方向)
/
/ * * *
/ *
* * *
---------------------> PC2点云在 PC1 方向上分布最广,PCA 选择此方向作为第一主成分
6. 延伸:PCA 与线性回归的统一
PCA 可视为"无监督线性回归":
- 回归试图用 $Xw$ 逼近 $y$
- PCA 试图用低秩近似 $X_k = U_k\Sigma_k V_k^T$ 逼近 $X$
换言之:
$$ \text{PCA:}\quad \min_{\text{rank}(B)=k}|X - B|_F^2 \quad\Rightarrow\quad B^*=U_k\Sigma_kV_k^T $$
7. 总结:线性代数的学习直觉
| 概念 | 线性代数意义 | 机器学习意义 |
|---|---|---|
| 投影 | 最小平方误差 | 线性回归、最小二乘 |
| 特征值分解 | 主方向伸缩 | PCA、谱聚类 |
| 正交性 | 无相关性 | 特征独立、白化处理 |
| SVD | 统一结构分解 | 降维、协方差分解 |
| 伪逆 | 解非满秩系统 | 正则化与稳定求解 |
一句话总结: 线性代数不仅提供了机器学习算法的计算工具,更揭示了数据与模型背后的几何结构——回归是投影,PCA 是旋转,SVD 是它们的共同语言