Data field
Transformer 的直观理解
本文从直觉、图像和几何角度解释 Transformer 的核心思想:自注意力(Self-Attention)、多头机制(Multi-Head Attention)、位置编码(Positional Encoding)与整体结构的"并行信息建模"思想。1. 背景:从序列到全局关系传统的序列模型(RNN、LSTM)逐步处理输入:$$ x_1 \to x_2 \to x_3 \to \dots \to x...