本文旨在从线性代数的角度解释机器学习中的核心模型——线性回归与主成分分析(PCA)。通过几何与代数双重视角揭示它们背后的结构、优化原理与直觉意义。1. 线性代数与机器学习的内在联系机器学习模型几乎都建立在线性代数的框架之上:数据集由矩阵 $X \in \mathbb{R}^{n\times d}$ 表示,行对应样本,列对应特征参数或模型权重是向量 $w \in \mathbb{R}^d$学习目标通...
目标:给出系统、可复用的数学原理与证明纲要 + 典型算法模板与例题解析,覆盖模运算、素数理论与欧拉函数。1. 同余与模运算(Modular Arithmetic)1.1 同余的定义与等价关系定义:若整数 $a,b,n$ 且 $n>0$,当且仅当 $n\mid (a-b)$ 时,记 $a\equiv b\pmod n$。等价关系:反身、对称、传递均成立;因此在 $\mathbb{Z}$ 上诱导...
🎯 一、推荐系统的核心目标函数1.1 基本定义推荐系统的本质是学习一个评分预测函数:$$\hat{r}_{ui} = f(u, i; \theta)$$其中:$\hat{r}_{ui}$:用户 $u$ 对物品 $i$ 的预测评分$r_{ui}$:真实评分$\theta$:模型参数1.2 优化目标最小化平方误差损失函数:$$\min_{\theta} \sum_{(u,i) \in \mathcal...
1. GPT 是什么?GPT 全称 Generative Pre-trained Transformer,意为"生成式预训练 Transformer"。它是一种通过预测下一个词(Next Token Prediction)来学习语言规律的模型,本质上是:$$ P(w_t | w_1, w_2, ..., w_{t-1}) $$也就是说,GPT 不需要人工标签,它通过阅读大量文本自动学习如何预测句子...
本文从直觉、图像和几何角度解释 Transformer 的核心思想:自注意力(Self-Attention)、多头机制(Multi-Head Attention)、位置编码(Positional Encoding)与整体结构的"并行信息建模"思想。1. 背景:从序列到全局关系传统的序列模型(RNN、LSTM)逐步处理输入:$$ x_1 \to x_2 \to x_3 \to \dots \to x...