线性回归与 PCA的直观理解

本文旨在从线性代数的角度解释机器学习中的核心模型——线性回归与主成分分析(PCA)。通过几何与代数双重视角揭示它们背后的结构、优化原理与直觉意义。

1. 线性代数与机器学习的内在联系

机器学习模型几乎都建立在线性代数的框架之上:

  • 数据集由矩阵 $X \in \mathbb{R}^{n\times d}$ 表示,行对应样本,列对应特征
  • 参数或模型权重是向量 $w \in \mathbb{R}^d$
  • 学习目标通常是最小化某种距离或投影误差,即最小化 $|Xw - y|^2$

在几何意义上,这就是寻找 $y$ 在由 $X$ 的列空间所张成的子空间上的正交投影


2. 线性回归的几何本质

2.1 模型与目标函数

线性回归假设:
$$ y = Xw + \varepsilon $$
其中 $\varepsilon$ 是噪声

目标:最小化平方误差
$$ J(w) = |Xw - y|^2 $$

2.2 正规方程的推导

对 $J(w)$ 求梯度并令其为零:
$$ \nabla_w J(w) = 2X^T(Xw - y) = 0 \Rightarrow X^TXw = X^Ty $$

若 $X^TX$ 可逆,则最优解:
$$ \boxed{w^* = (X^TX)^{-1}X^Ty} $$

2.3 几何解释:正交投影

$Xw^*$ 是 $y$ 在 $X$ 的列空间 $\mathcal{C}(X)$ 上的正交投影:
$$ X^T(y - Xw^*) = 0 $$

换言之,残差向量 $r = y - Xw^*$ 与列空间正交

直观理解:线性回归寻找"最近的线性子空间"使得预测值与观测值的距离平方最小

2.4 奇异值分解(SVD)视角

将 $X$ 做 SVD:
$$ X = U\Sigma V^T $$
则:
$$ w^* = V\Sigma^{-1}U^Ty $$

该式表明:

  • $U$:定义数据的主方向
  • $\Sigma$:对应方向上的伸缩比例
  • $V$:定义参数空间的基

通过 SVD 可解释病态情况(例如 $X^TX$ 不可逆时使用伪逆):
$$ X^+ = V\Sigma^+ U^T, \quad w^* = X^+ y $$


3. 主成分分析(PCA)与降维

3.1 问题定义

给定中心化数据矩阵 $X\in\mathbb{R}^{n\times d}$,PCA 旨在寻找低维子空间(维度 $k<d$)使得投影后保留最大方差

等价形式:最大化投影方差
$$ \max_{W^TW=I_k} \operatorname{Tr}(W^T S W), \quad S = \frac{1}{n} X^TX \text{(协方差矩阵)} $$

3.2 特征分解视角

对 $S$ 做特征分解:
$$ S = V\Lambda V^T, \quad \Lambda = \operatorname{diag}(\lambda_1, \dots, \lambda_d), \quad \lambda_1\ge\cdots\ge\lambda_d\ge0 $$

最优投影方向为 $V_k = [v_1,\dots,v_k]$,对应最大 $k$ 个特征值。投影结果:
$$ Z = XV_k $$

几何上,这相当于在数据分布方差最大的方向上重新建立坐标系

3.3 SVD 与 PCA 的等价

对中心化数据矩阵 $X$ 进行 SVD:
$$ X = U\Sigma V^T $$
则:

  • 右奇异向量 $V$ 为 PCA 的主成分方向
  • 奇异值平方 $\Sigma^2/n$ 为协方差矩阵的特征值

因此:
$$ S = \frac{1}{n} X^TX = V \frac{\Sigma^2}{n} V^T $$

PCA 本质上就是在奇异值最大的方向上投影数据

3.4 几何直觉

想象一群点分布在高维空间:

  • 第一主成分是数据延展方向最长的轴
  • 第二主成分与第一主成分正交,捕获剩余最大方差

最终,PCA 通过构造一个新的正交坐标系,使大部分方差集中在前几维


4. 线性代数与优化的统一直觉

模型优化目标几何意义线性代数解释
线性回归最小化 $\lvert Xw - y^2 \rvert$投影到列空间解正规方程 $X^TXw=X^Ty$
PCA最大化方差 $w^T S w$寻找主方向解特征方程 $S w = \lambda w$

两者都是 二次优化问题

  • 线性回归:最小化二次形式
  • PCA:最大化二次形式

几何上,一个是"逼近",另一个是"捕捉"


5. 实践直觉与可视化

5.1 线性回归的几何投影图

    y
    |\
    | \
    |  \
    |   \  ← 投影到列空间
    |____\__________ x
          Xw*

$y$ 被垂直投影到由 $X$ 张成的平面,投影点即预测值

5.2 PCA 的主方向可视化

        ^ PC1 (最大方差方向)
       /
      /   *  *   *
     /  *
    *       *     *
   ---------------------> PC2

点云在 PC1 方向上分布最广,PCA 选择此方向作为第一主成分


6. 延伸:PCA 与线性回归的统一

PCA 可视为"无监督线性回归":

  • 回归试图用 $Xw$ 逼近 $y$
  • PCA 试图用低秩近似 $X_k = U_k\Sigma_k V_k^T$ 逼近 $X$

换言之:
$$ \text{PCA:}\quad \min_{\text{rank}(B)=k}|X - B|_F^2 \quad\Rightarrow\quad B^*=U_k\Sigma_kV_k^T $$


7. 总结:线性代数的学习直觉

概念线性代数意义机器学习意义
投影最小平方误差线性回归、最小二乘
特征值分解主方向伸缩PCA、谱聚类
正交性无相关性特征独立、白化处理
SVD统一结构分解降维、协方差分解
伪逆解非满秩系统正则化与稳定求解
一句话总结: 线性代数不仅提供了机器学习算法的计算工具,更揭示了数据与模型背后的几何结构——回归是投影,PCA 是旋转,SVD 是它们的共同语言

添加新评论