线性回归与 PCA的直观理解

2025年10月27日

Data field

约 9 分钟阅读

阅读量:5次

LinearModel

本文旨在从线性代数的角度解释机器学习中的核心模型——线性回归与主成分分析（PCA）。通过几何与代数双重视角揭示它们背后的结构、优化原理与直觉意义。

1. 线性代数与机器学习的内在联系

机器学习模型几乎都建立在线性代数的框架之上：

数据集由矩阵 $X \in \mathbb{R}^{n\times d}$ 表示，行对应样本，列对应特征
参数或模型权重是向量 $w \in \mathbb{R}^d$
学习目标通常是最小化某种距离或投影误差，即最小化 $|Xw - y|^2$

在几何意义上，这就是寻找 $y$ 在由 $X$ 的列空间所张成的子空间上的正交投影

2. 线性回归的几何本质

2.1 模型与目标函数

线性回归假设：
$$ y = Xw + \varepsilon $$
其中 $\varepsilon$ 是噪声

目标：最小化平方误差
$$ J(w) = |Xw - y|^2 $$

2.2 正规方程的推导

对 $J(w)$ 求梯度并令其为零：
$$ \nabla_w J(w) = 2X^T(Xw - y) = 0 \Rightarrow X^TXw = X^Ty $$

若 $X^TX$ 可逆，则最优解：
$$ \boxed{w^* = (X^TX)^{-1}X^Ty} $$

2.3 几何解释：正交投影

$Xw^*$ 是 $y$ 在 $X$ 的列空间 $\mathcal{C}(X)$ 上的正交投影：
$$ X^T(y - Xw^*) = 0 $$

换言之，残差向量 $r = y - Xw^*$ 与列空间正交

直观理解：线性回归寻找"最近的线性子空间"使得预测值与观测值的距离平方最小

2.4 奇异值分解（SVD）视角

将 $X$ 做 SVD：
$$ X = U\Sigma V^T $$
则：
$$ w^* = V\Sigma^{-1}U^Ty $$

该式表明：

$U$：定义数据的主方向
$\Sigma$：对应方向上的伸缩比例
$V$：定义参数空间的基

通过 SVD 可解释病态情况（例如 $X^TX$ 不可逆时使用伪逆）：
$$ X^+ = V\Sigma^+ U^T, \quad w^* = X^+ y $$

3. 主成分分析（PCA）与降维

3.1 问题定义

给定中心化数据矩阵 $X\in\mathbb{R}^{n\times d}$，PCA 旨在寻找低维子空间（维度 $k<d$）使得投影后保留最大方差

等价形式：最大化投影方差
$$ \max_{W^TW=I_k} \operatorname{Tr}(W^T S W), \quad S = \frac{1}{n} X^TX \text{（协方差矩阵）} $$

3.2 特征分解视角

对 $S$ 做特征分解：
$$ S = V\Lambda V^T, \quad \Lambda = \operatorname{diag}(\lambda_1, \dots, \lambda_d), \quad \lambda_1\ge\cdots\ge\lambda_d\ge0 $$

最优投影方向为 $V_k = [v_1,\dots,v_k]$，对应最大 $k$ 个特征值。投影结果：
$$ Z = XV_k $$

几何上，这相当于在数据分布方差最大的方向上重新建立坐标系

3.3 SVD 与 PCA 的等价

对中心化数据矩阵 $X$ 进行 SVD：
$$ X = U\Sigma V^T $$
则：

右奇异向量 $V$ 为 PCA 的主成分方向
奇异值平方 $\Sigma^2/n$ 为协方差矩阵的特征值

因此：
$$ S = \frac{1}{n} X^TX = V \frac{\Sigma^2}{n} V^T $$

PCA 本质上就是在奇异值最大的方向上投影数据

3.4 几何直觉

想象一群点分布在高维空间：

第一主成分是数据延展方向最长的轴
第二主成分与第一主成分正交，捕获剩余最大方差

最终，PCA 通过构造一个新的正交坐标系，使大部分方差集中在前几维

4. 线性代数与优化的统一直觉

模型	优化目标	几何意义	线性代数解释
线性回归	最小化 $\lvert Xw - y^2 \rvert$	投影到列空间	解正规方程 $X^TXw=X^Ty$
PCA	最大化方差 $w^T S w$	寻找主方向	解特征方程 $S w = \lambda w$

两者都是 二次优化问题：

线性回归：最小化二次形式
PCA：最大化二次形式

几何上，一个是"逼近"，另一个是"捕捉"

5. 实践直觉与可视化

5.1 线性回归的几何投影图

    y
    |\
    | \
    |  \
    |   \  ← 投影到列空间
    |____\__________ x
          Xw*

$y$ 被垂直投影到由 $X$ 张成的平面，投影点即预测值

5.2 PCA 的主方向可视化

        ^ PC1 (最大方差方向)
       /
      /   *  *   *
     /  *
    *       *     *
   ---------------------> PC2

点云在 PC1 方向上分布最广，PCA 选择此方向作为第一主成分

6. 延伸：PCA 与线性回归的统一

PCA 可视为"无监督线性回归"：

回归试图用 $Xw$ 逼近 $y$
PCA 试图用低秩近似 $X_k = U_k\Sigma_k V_k^T$ 逼近 $X$

换言之：
$$ \text{PCA:}\quad \min_{\text{rank}(B)=k}|X - B|_F^2 \quad\Rightarrow\quad B^*=U_k\Sigma_kV_k^T $$

7. 总结：线性代数的学习直觉

概念	线性代数意义	机器学习意义
投影	最小平方误差	线性回归、最小二乘
特征值分解	主方向伸缩	PCA、谱聚类
正交性	无相关性	特征独立、白化处理
SVD	统一结构分解	降维、协方差分解
伪逆	解非满秩系统	正则化与稳定求解

一句话总结： 线性代数不仅提供了机器学习算法的计算工具，更揭示了数据与模型背后的几何结构——回归是投影，PCA 是旋转，SVD 是它们的共同语言