本文旨在从线性代数的角度解释机器学习中的核心模型——线性回归与主成分分析(PCA)。通过几何与代数双重视角揭示它们背后的结构、优化原理与直觉意义。1. 线性代数与机器学习的内在联系机器学习模型几乎都建立在线性代数的框架之上:数据集由矩阵 $X \in \mathbb{R}^{n\times d}$ 表示,行对应样本,列对应特征参数或模型权重是向量 $w \in \mathbb{R}^d$学习目标通...
1. GPT 是什么?GPT 全称 Generative Pre-trained Transformer,意为"生成式预训练 Transformer"。它是一种通过预测下一个词(Next Token Prediction)来学习语言规律的模型,本质上是:$$ P(w_t | w_1, w_2, ..., w_{t-1}) $$也就是说,GPT 不需要人工标签,它通过阅读大量文本自动学习如何预测句子...
本文从直觉、图像和几何角度解释 Transformer 的核心思想:自注意力(Self-Attention)、多头机制(Multi-Head Attention)、位置编码(Positional Encoding)与整体结构的"并行信息建模"思想。1. 背景:从序列到全局关系传统的序列模型(RNN、LSTM)逐步处理输入:$$ x_1 \to x_2 \to x_3 \to \dots \to x...
本文用直观几何与网络结构的角度,解释 PCA 如何在深度学习与数据压缩中体现——尤其是与 AutoEncoder(自动编码器)和奇异值分解(SVD)的对应关系。1. PCA:数据压缩的线性基础主成分分析(PCA)通过线性代数实现数据降维:$$ X \in \mathbb{R}^{n\times d},\quad X = U\Sigma V^T $$V 的列向量(特征方向) 是数据方差最大的方向UΣ...
本文从概念、结构与数学三个层面讲解"跨模态 Transformer(Multimodal Transformer)"的核心思想,解释文本、图像、语音等模态如何在同一框架下进行建模与交互。并通过对比 BERT、GPT、ViT、CLIP、Flamingo 等代表性模型,说明统一架构的几何直觉与数理原理。1. 为什么需要跨模态 Transformer?人类理解世界并不依赖单一模态:我们"看图识字"、"听...