1.BERT核心架构
flowchart TD subgraph A[BERT核心架构] direction TB A1[Transformer
编码器] --> A2[嵌入层
Token + Segment + Position]; A2 --> A3[预训练任务
MLM + NSP]; end subgraph B[核心创新点] B1[深度双向表征] B2[预训练-微调范式] B3[基于Transformer的编码器] B4[动态上下文词向量] end subgraph C[应用场景] direction TB C1[文本分类
情感分析/垃圾邮件检测] C2[句子对任务
语义相似度/NLI] C3[问答系统
机器阅读理解] C4[序列标注
命名实体识别] end subgraph D[生态系统与衍生模型] D1[鲁棒优化版
RoBERTa] D2[高效压缩版
DistilBERT/ALBERT] D3[领域专用版
BioBERT/SciBERT] D4[多模态扩展版
VideoBERT/VL-BERT] end A -- 基础架构 --> B B -- 技术优势 --> C B -- 社区与工业界发展 --> D A -- 预训练模型 --> D
2.Transformer流程图
flowchart TD subgraph A [输入处理] direction LR A1[输入序列] -- 词嵌入 --> A2[输入嵌入矩阵] A2 -- 添加位置信息 --> A3[位置编码] end subgraph B [编码器栈] B0[编码器输入] subgraph B1 [编码器层 Nx] direction TB C1[多头自注意力] C2[Add & Norm
残差连接&层归一化] C3[前馈网络] C4[Add & Norm
残差连接&层归一化] C1 --> C2 --> C3 --> C4 end B0 --> B1 B1 --> B5[编码器输出] end subgraph D [解码器栈] D0[解码器输入] subgraph D1 [解码器层 Nx] direction TB E1[掩码多头自注意力] E2[Add & Norm] E3[多头编码-解码注意力] E4[Add & Norm] E5[前馈网络] E6[Add & Norm] E1 --> E2 --> E3 --> E4 --> E5 --> E6 end D0 --> D1 D1 --> D7[解码器输出] end subgraph F [输出处理] F1[线性层] F2[Softmax] F3[输出概率] end A3 --> B0 B5 -- 作为K V --> E3 D7 --> F1 F1 --> F2 F2 --> F3
--
3.deepseek训练流程图
graph TD A[开始] --> B[数据收集] B --> C[数据预处理] C --> D[数据清洗与去重] D --> E[数据格式化] E --> F[模型架构设计] F --> G[初始化模型参数] G --> H[预训练阶段] H --> I[大规模无监督学习] I --> J[下一个词预测任务] J --> K[有监督微调] K --> L[指令遵循数据训练] L --> M[对话格式优化] M --> N[奖励模型训练] N --> O[收集人类偏好数据] O --> P[训练奖励评分模型] P --> Q[强化学习优化] Q --> R[PPO算法训练] R --> S[基于奖励模型优化] S --> T[模型评估] T --> U[基准测试] U --> V[人工评估] V --> W{性能达标?} W -->|是| X[模型部署] W -->|否| Y[迭代优化] Y --> K X --> Z[结束] %% 样式定义 classDef preTrain fill:#e1f5fe classDef sft fill:#f3e5f5 classDef rlhf fill:#e8f5e8 classDef eval fill:#fff3e0 class I,J preTrain class L,M sft class O,P,Q,R,S rlhf class T,U,V,W eval
3.1训练阶段流程图
flowchart TD subgraph A [数据准备阶段] A1[多源数据收集
网页/书籍/代码/学术论文] --> A2[数据去重与清洗] A2 --> A3[质量过滤与毒性检测] A3 --> A4[文本标准化与分词] end subgraph B [预训练阶段] B1[Transformer架构初始化] --> B2[大规模自监督学习] B2 --> B3[下一个词预测任务] B3 --> B4[梯度累积与优化] B4 --> B5[检查点保存] end subgraph C [有监督微调阶段] C1[收集指令遵循数据] --> C2[构建对话格式] C2 --> C3[SFT训练] C3 --> C4[对话能力优化] end subgraph D [奖励模型训练] D1[收集人类偏好数据] --> D2[数据对排序] D2 --> D3[训练RM模型] D3 --> D4[输出质量评分能力] end subgraph E [强化学习阶段] E1[初始化PPO算法] --> E2[RM提供奖励信号] E2 --> E3[策略梯度更新] E3 --> E4[KL散度约束] E4 --> E5[多轮迭代优化] end subgraph F [评估与部署] F1[多维度基准测试] --> F2[人工质量评估] F2 --> F3[安全性与对齐检测] F3 --> F4[模型压缩与优化] F4 --> F5[部署上线] end A --> B B --> C C --> D D --> E E --> F
3.2训练数据流程详图
flowchart LR subgraph G [训练数据流] G1[原始文本数据] --> G2[数据清洗管道] G2 --> G3[质量过滤] G3 --> G4[分词处理] G4 --> G5[批次生成] end subgraph H [模型训练流] H1[数据加载] --> H2[前向传播] H2 --> H3[损失计算] H3 --> H4[反向传播] H4 --> H5[参数更新] H5 --> H6[验证评估] end subgraph I [RLHF训练流] I1[SFT模型] --> I2[生成响应] I2 --> I3[RM评分] I3 --> I4[PPO更新] I4 --> I5[策略改进] end G --> H H --> I
3.3关键组件关系图
graph TB A[DeepSeek训练框架] --> B[核心组件] B --> C[数据处理系统] B --> D[分布式训练] B --> E[评估体系] C --> C1[数据收集] C --> C2[质量过滤] C --> C3[数据增强] D --> D1[模型并行] D --> D2[数据并行] D --> D3[混合精度训练] E --> E1[自动评估] E --> E2[人工评估] E --> E3[安全评估] F[训练阶段] --> G[预训练] F --> H[有监督微调] F --> I[强化学习] G --> G1[语言建模] H --> H1[指令调优] I --> I1[PPO优化] J[输出] --> K[DeepSeek模型] K --> L[文本生成] K --> M[代码生成] K --> N[数学推理] %% 连接关系 C --> G D --> G D --> H D --> I E --> J G --> H H --> I I --> J
3.4训练资源配置图
flowchart TD A[硬件基础设施] --> B[计算资源] A --> C[存储资源] A --> D[网络资源] B --> B1[GPU集群] B --> B2[TPU资源] B --> B3[CPU资源] C --> C1[高速存储] C --> C2[分布式文件系统] C --> C3[数据缓存] D --> D1[高速网络] D --> D2[通信优化] E[软件框架] --> F[深度学习框架] E --> G[分布式训练] E --> H[监控系统] F --> F1[PyTorch] F --> F2[自定义优化] G --> G1[模型并行] G --> G2[数据并行] H --> H1[训练监控] H --> H2[资源监控] H --> H3[日志分析] I[训练流程] --> J[自动容错] I --> K[断点续训] I --> L[动态调度]
--
4.可视化图
pie title 饼图分布 "市场份额分析" : 35 "预算分配" : 25 "用户画像" : 15 "资源分配" : 12 "调查结果" : 8 "其他" : 5
5.时间线图
timeline title 技术发展时间线 1990年代 : Web诞生 静态网页 2000年代 : Web2.0 动态交互 2010年代 : 移动互联网 云计算 2020年代 : AI时代 元宇宙 未来 : 量子计算 脑机接口
--
6.git分支图
gitGraph commit commit branch develop checkout develop commit commit branch feature/login checkout feature/login commit commit checkout develop merge feature/login branch release/v1.0 checkout release/v1.0 commit checkout main merge release/v1.0 checkout develop commit
--
7.LLama思维导图简化版
graph TD A[Pre-training Data] --> B[Training Process] B --> C[Model Architecture] C --> D[Model Evaluation] D --> E[Performance Results] E --> F[Bias Evaluation] F --> G[Instruction Tuning] G --> H[Future Work] %% 数据源 A1[CommonCrawl 67%] -.-> A A2[C4 15%] -.-> A A3[GitHub 4.5%] -.-> A A4[Wikipedia 4.5%] -.-> A %% 训练配置 B1[4M token batch] -.-> B B2[Cosine LR] -.-> B B3[AdamW] -.-> B %% 架构 C1[SwiGLU] -.-> C C2[RoPE] -.-> C %% 评估 D1[Zero-shot] -.-> D D2[Few-shot] -.-> D %% 结果 E1[Beat GPT-3] -.-> E E2[1.4T tokens] -.-> E %% 偏见评估 F1[Toxicity Prompts] -.-> F F2[TruthfulQA] -.-> F %% 微调 G1[MMLU tuning] -.-> G %% 未来 H1[Scale up] -.-> H H2[Bias research] -.-> H %% 样式 classDef process fill:#bbdefb,stroke:#1976d2,stroke-width:2px classDef detail fill:#e3f2fd,stroke:#42a5f5,stroke-width:1px class A,B,C,D,E,F,G,H process class A1,A2,A3,A4,B1,B2,B3,C1,C2,D1,D2,E1,E2,F1,F2,G1,H1,H2 detail
8.gpt简化流程图
flowchart TD %% 数据准备阶段 A[大规模原始数据采集
网页、书籍、代码、论文、多模态等] --> B[数据清洗与过滤
去重、质量评分、安全过滤、隐私脱敏] B --> C[课程学习 Curriculum Learning] %% 多阶段训练 C --> D1[阶段1: 基础预训练
超大规模无监督学习
可能采用 MoE 架构] D1 --> D2[阶段2: 领域增强训练
代码、数学、推理、多语言强化] D2 --> D3[阶段3: 监督微调 SFT
高质量人工/合成指令数据] %% 对齐优化阶段 D3 --> E[对齐优化阶段] E --> E1[人类反馈强化学习 RLHF
奖励模型 + PPO] E --> E2[或直接偏好优化 DPO/SimPO
更高效替代方案] E --> E3[安全对齐与红队测试
Red Teaming, 越狱防护] %% 汇聚点 E1 --> F E2 --> F E3 --> F %% 评估与部署 F[多维度评估
能力评测、安全评估、性能测试] -->|通过| G[模型部署
量化、推理优化、API服务、监控] F -->|未通过| H[迭代优化
数据重采样 / 架构调整 / 超参调优] H --> C %% 样式定义 classDef dataStage fill:#e8f5e8,stroke:#2e7d32,stroke-width:2px classDef trainStage fill:#e3f2fd,stroke:#1565c0,stroke-width:2px classDef alignStage fill:#fff3e0,stroke:#ef6c00,stroke-width:2px classDef evalStage fill:#fce4ec,stroke:#c2185b,stroke-width:2px classDef deployStage fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px classDef branch fill:#fff9c4,stroke:#f57f17,stroke-width:2px class A,B dataStage class D1,D2,D3 trainStage class E,E1,E2,E3 alignStage class F evalStage class G deployStage class H branch
9.强化学习算法选择图
flowchart TD Start[选择RL算法] --> A{问题特性?} A -->|离散动作空间| B[离散动作算法] A -->|连续动作空间| C[连续动作算法] A -->|高维状态空间| D[深度RL算法] B --> B1{需要稳定性?} B1 -->|是| B2[DQN及其变体] B1 -->|否| B3[Q-learning, SARSA] C --> C1{策略类型?} C1 -->|随机策略| C2[A2C, A3C, PPO] C1 -->|确定性策略| C3[DDPG, TD3] C1 -->|最大熵| C4[SAC] D --> D1[所有深度RL算法
DQN, DDPG, PPO, SAC等] B2 --> E[最终选择] B3 --> E C2 --> E C3 --> E C4 --> E D1 --> E E --> F[实施训练] classDef choice fill:#e3f2fd,stroke:#1565c0 classDef algo fill:#fff3e0,stroke:#ef6c00 classDef final fill:#e8f5e8,stroke:#2e7d32 class A,B,C,D choice class B1,B2,B3,C1,C2,C3,C4,D1 algo class E,F final
强化学习流程图
flowchart TD A[初始化智能体] --> B[环境交互收集经验] B --> C[存储经验到回放缓冲区] C --> D{采样条件满足?} D -->|是| E[采样批次经验] D -->|否| B E --> F[计算目标值 TD/MC] F --> G[更新价值网络] G --> H[更新策略网络] H --> I[软更新目标网络] I --> J[评估策略性能] J --> K{性能收敛?} K -->|是| L[保存模型] K -->|否| M[调整超参数] M --> B L --> N[部署应用] classDef step fill:#e3f2fd,stroke:#1565c0 classDef decision fill:#fff3e0,stroke:#ef6c00 classDef final fill:#e8f5e8,stroke:#2e7d32 class A,B,C,E,F,G,H,I,J step class D,K decision class L,N final
10.bert流程图
flowchart TB %% 配色与样式定义 classDef inputStyle fill:#e3f2fd,stroke:#1e88e5,stroke-width:2px,color:#0d47a1 classDef embedStyle fill:#fff3e0,stroke:#ff9800,stroke-width:2px,color:#e65100 classDef encoderStyle fill:#e8f5e8,stroke:#43a047,stroke-width:2px,color:#2e7d32 classDef headStyle fill:#fce4ec,stroke:#e91e63,stroke-width:2px,color:#ad1457 classDef metaStyle fill:#f5f5f5,stroke:#9e9e9e,stroke-width:1px,color:#616161 classDef outputStyle fill:#ede7f6,stroke:#673ab7,stroke-width:2px,color:#4527a0 %% 输入与分词 RawText[📝 原始文本]:::inputStyle Tokenizer[✂️ 分词器
WordPiece / BPE]:::inputStyle Tokens[🔢 Token IDs & Attention Mask]:::metaStyle %% 嵌入层 TokenEmb[📊 词向量]:::embedStyle PosEmb[📍 位置向量]:::embedStyle SegEmb[🔗 分割向量]:::embedStyle SumEmb[➕ 向量相加 + LayerNorm]:::embedStyle %% 编码器 EncoderStack[🏗️ Transformer 编码器 × N 层
BERT-base: N=12, 110M参数
BERT-large: N=24, 340M参数]:::encoderStyle %% 输出 EncoderOutputs[📤 编码器输出]:::metaStyle CLSVec[⭐ CLS 向量]:::outputStyle SeqOut[📋 序列输出]:::outputStyle %% 任务头 MLM[🤐 掩码语言模型]:::headStyle NSP[➡️ 下一句预测]:::headStyle Downstream[🚀 下游任务]:::headStyle %% 连接流程 RawText --> Tokenizer --> Tokens Tokens --> TokenEmb TokenEmb --> SumEmb PosEmb --> SumEmb SegEmb --> SumEmb SumEmb --> EncoderStack EncoderStack --> EncoderOutputs EncoderOutputs --> CLSVec EncoderOutputs --> SeqOut CLSVec --> NSP CLSVec --> Downstream SeqOut --> MLM SeqOut --> Downstream
配置梳理(中文表格,常见/代表性数值)
模型 | 层数 (N) | hidden_size | attention heads | 参数量(约) | 关键区别 / 说明 |
---|---|---|---|---|---|
BERT-base | 12 | 768 | 12 | ~110M | 原始 BERT(Devlin et al.),含 MLM + NSP 预训练 |
BERT-large | 24 | 1024 | 16 | ~340M | 更深更宽,效果更好但计算开销大 |
DistilBERT | 6 | 768 (通常) | 12 (通常) | ~66M | 通过知识蒸馏压缩 BERT-base,速度/内存优化 |
ALBERT (代表) | 12+ (可很深) | 768 (但参数共享) | 12 | 较少(远低于 base) | 因式分解嵌入 + 跨层参数共享,显著降低参数量 |
RoBERTa | 与 BERT 同构 | 与 BERT 同构 | 与 BERT 同构 | 与对应 BERT 相近 | 训练更多数据、去掉 NSP、调优超参 |
TinyBERT / MobileBERT | 4~6 | 256~768 | 少量 heads | 小到几百万–几十万 | 专为移动/边缘设备蒸馏/剪枝/量化优化 |
说明:表中“参数量(约)”与某些变体取决于具体实现(例如 HuggingFace 的bert-small/medium/mini
系列、ALBERT 的不同规模、TinyBERT 的版本等)。上表给出常见/代表值或方向性比较;若需精确到某个 checkpoint(例如albert-xxlarge-v2
、distilbert-base-uncased
)我可以把确切模型参数数值拉来列出。