Transformer 的直观理解 2025年10月23日 · Data field · 17 分钟阅读 本文从直觉、图像和几何角度解释 Transformer 的核心思想:自注意力(Self-Attention)、多头机制(Multi-Head Attention)、位置编码(Positional Encoding)与整体结构的"并行信息建模"思想。1. 背景:从序列到全局关系传统的序列模型(RNN、LSTM)逐步处理输入:$$ x_1 \to x_2 \to x_3 \to \dots \to x...
跨模态 Transformer 统一架构:直观理解 2025年10月19日 · Data field · 23 分钟阅读 本文从概念、结构与数学三个层面讲解"跨模态 Transformer(Multimodal Transformer)"的核心思想,解释文本、图像、语音等模态如何在同一框架下进行建模与交互。并通过对比 BERT、GPT、ViT、CLIP、Flamingo 等代表性模型,说明统一架构的几何直觉与数理原理。1. 为什么需要跨模态 Transformer?人类理解世界并不依赖单一模态:我们"看图识字"、"听...