mermaid示例文件

1.BERT核心架构

  flowchart TD
    subgraph A[BERT核心架构]
        direction TB
        A1[Transformer
编码器] --> A2[嵌入层
Token + Segment + Position]; A2 --> A3[预训练任务
MLM + NSP]; end subgraph B[核心创新点] B1[深度双向表征] B2[预训练-微调范式] B3[基于Transformer的编码器] B4[动态上下文词向量] end subgraph C[应用场景] direction TB C1[文本分类
情感分析/垃圾邮件检测] C2[句子对任务
语义相似度/NLI] C3[问答系统
机器阅读理解] C4[序列标注
命名实体识别] end subgraph D[生态系统与衍生模型] D1[鲁棒优化版
RoBERTa] D2[高效压缩版
DistilBERT/ALBERT] D3[领域专用版
BioBERT/SciBERT] D4[多模态扩展版
VideoBERT/VL-BERT] end A -- 基础架构 --> B B -- 技术优势 --> C B -- 社区与工业界发展 --> D A -- 预训练模型 --> D

2.Transformer流程图

flowchart TD
    subgraph A [输入处理]
        direction LR
        A1[输入序列] -- 词嵌入 --> A2[输入嵌入矩阵]
        A2 -- 添加位置信息 --> A3[位置编码]
    end

    subgraph B [编码器栈]
        B0[编码器输入]
        subgraph B1 [编码器层 Nx]
            direction TB
            C1[多头自注意力]
            C2[Add & Norm
残差连接&层归一化] C3[前馈网络] C4[Add & Norm
残差连接&层归一化] C1 --> C2 --> C3 --> C4 end B0 --> B1 B1 --> B5[编码器输出] end subgraph D [解码器栈] D0[解码器输入] subgraph D1 [解码器层 Nx] direction TB E1[掩码多头自注意力] E2[Add & Norm] E3[多头编码-解码注意力] E4[Add & Norm] E5[前馈网络] E6[Add & Norm] E1 --> E2 --> E3 --> E4 --> E5 --> E6 end D0 --> D1 D1 --> D7[解码器输出] end subgraph F [输出处理] F1[线性层] F2[Softmax] F3[输出概率] end A3 --> B0 B5 -- 作为K V --> E3 D7 --> F1 F1 --> F2 F2 --> F3

--

3.deepseek训练流程图

graph TD
    A[开始] --> B[数据收集]
    
    B --> C[数据预处理]
    C --> D[数据清洗与去重]
    D --> E[数据格式化]
    
    E --> F[模型架构设计]
    F --> G[初始化模型参数]
    
    G --> H[预训练阶段]
    H --> I[大规模无监督学习]
    I --> J[下一个词预测任务]
    
    J --> K[有监督微调]
    K --> L[指令遵循数据训练]
    L --> M[对话格式优化]
    
    M --> N[奖励模型训练]
    N --> O[收集人类偏好数据]
    O --> P[训练奖励评分模型]
    
    P --> Q[强化学习优化]
    Q --> R[PPO算法训练]
    R --> S[基于奖励模型优化]
    
    S --> T[模型评估]
    T --> U[基准测试]
    U --> V[人工评估]
    
    V --> W{性能达标?}
    W -->|是| X[模型部署]
    W -->|否| Y[迭代优化]
    
    Y --> K
    
    X --> Z[结束]
    
    %% 样式定义
    classDef preTrain fill:#e1f5fe
    classDef sft fill:#f3e5f5
    classDef rlhf fill:#e8f5e8
    classDef eval fill:#fff3e0
    
    class I,J preTrain
    class L,M sft
    class O,P,Q,R,S rlhf
    class T,U,V,W eval

3.1训练阶段流程图

flowchart TD
    subgraph A [数据准备阶段]
        A1[多源数据收集
网页/书籍/代码/学术论文] --> A2[数据去重与清洗] A2 --> A3[质量过滤与毒性检测] A3 --> A4[文本标准化与分词] end subgraph B [预训练阶段] B1[Transformer架构初始化] --> B2[大规模自监督学习] B2 --> B3[下一个词预测任务] B3 --> B4[梯度累积与优化] B4 --> B5[检查点保存] end subgraph C [有监督微调阶段] C1[收集指令遵循数据] --> C2[构建对话格式] C2 --> C3[SFT训练] C3 --> C4[对话能力优化] end subgraph D [奖励模型训练] D1[收集人类偏好数据] --> D2[数据对排序] D2 --> D3[训练RM模型] D3 --> D4[输出质量评分能力] end subgraph E [强化学习阶段] E1[初始化PPO算法] --> E2[RM提供奖励信号] E2 --> E3[策略梯度更新] E3 --> E4[KL散度约束] E4 --> E5[多轮迭代优化] end subgraph F [评估与部署] F1[多维度基准测试] --> F2[人工质量评估] F2 --> F3[安全性与对齐检测] F3 --> F4[模型压缩与优化] F4 --> F5[部署上线] end A --> B B --> C C --> D D --> E E --> F

3.2训练数据流程详图

flowchart LR
    subgraph G [训练数据流]
        G1[原始文本数据] --> G2[数据清洗管道]
        G2 --> G3[质量过滤]
        G3 --> G4[分词处理]
        G4 --> G5[批次生成]
    end
    
    subgraph H [模型训练流]
        H1[数据加载] --> H2[前向传播]
        H2 --> H3[损失计算]
        H3 --> H4[反向传播]
        H4 --> H5[参数更新]
        H5 --> H6[验证评估]
    end
    
    subgraph I [RLHF训练流]
        I1[SFT模型] --> I2[生成响应]
        I2 --> I3[RM评分]
        I3 --> I4[PPO更新]
        I4 --> I5[策略改进]
    end
    
    G --> H
    H --> I

3.3关键组件关系图

graph TB
    A[DeepSeek训练框架] --> B[核心组件]
    
    B --> C[数据处理系统]
    B --> D[分布式训练]
    B --> E[评估体系]
    
    C --> C1[数据收集]
    C --> C2[质量过滤]
    C --> C3[数据增强]
    
    D --> D1[模型并行]
    D --> D2[数据并行]
    D --> D3[混合精度训练]
    
    E --> E1[自动评估]
    E --> E2[人工评估]
    E --> E3[安全评估]
    
    F[训练阶段] --> G[预训练]
    F --> H[有监督微调]
    F --> I[强化学习]
    
    G --> G1[语言建模]
    H --> H1[指令调优]
    I --> I1[PPO优化]
    
    J[输出] --> K[DeepSeek模型]
    K --> L[文本生成]
    K --> M[代码生成]
    K --> N[数学推理]
    
    %% 连接关系
    C --> G
    D --> G
    D --> H
    D --> I
    E --> J
    G --> H
    H --> I
    I --> J

3.4训练资源配置图

flowchart TD
    A[硬件基础设施] --> B[计算资源]
    A --> C[存储资源]
    A --> D[网络资源]
    
    B --> B1[GPU集群]
    B --> B2[TPU资源]
    B --> B3[CPU资源]
    
    C --> C1[高速存储]
    C --> C2[分布式文件系统]
    C --> C3[数据缓存]
    
    D --> D1[高速网络]
    D --> D2[通信优化]
    
    E[软件框架] --> F[深度学习框架]
    E --> G[分布式训练]
    E --> H[监控系统]
    
    F --> F1[PyTorch]
    F --> F2[自定义优化]
    
    G --> G1[模型并行]
    G --> G2[数据并行]
    
    H --> H1[训练监控]
    H --> H2[资源监控]
    H --> H3[日志分析]
    
    I[训练流程] --> J[自动容错]
    I --> K[断点续训]
    I --> L[动态调度]

--

4.可视化图

pie title 饼图分布
    "市场份额分析" : 35
    "预算分配" : 25
    "用户画像" : 15
    "资源分配" : 12
    "调查结果" : 8
    "其他" : 5

5.时间线图

timeline
    title 技术发展时间线
    1990年代 : Web诞生 静态网页
    2000年代 : Web2.0 动态交互
    2010年代 : 移动互联网 云计算
    2020年代 : AI时代 元宇宙
    未来 : 量子计算 脑机接口

--

6.git分支图

gitGraph
    commit
    commit
    branch develop
    checkout develop
    commit
    commit
    branch feature/login
    checkout feature/login
    commit
    commit
    checkout develop
    merge feature/login
    branch release/v1.0
    checkout release/v1.0
    commit
    checkout main
    merge release/v1.0
    checkout develop
    commit

--

7.LLama思维导图简化版

graph TD
    A[Pre-training Data] --> B[Training Process]
    B --> C[Model Architecture]
    C --> D[Model Evaluation]
    D --> E[Performance Results]
    E --> F[Bias Evaluation]
    F --> G[Instruction Tuning]
    G --> H[Future Work]

    %% 数据源
    A1[CommonCrawl 67%] -.-> A
    A2[C4 15%] -.-> A
    A3[GitHub 4.5%] -.-> A
    A4[Wikipedia 4.5%] -.-> A
    
    %% 训练配置
    B1[4M token batch] -.-> B
    B2[Cosine LR] -.-> B
    B3[AdamW] -.-> B
    
    %% 架构
    C1[SwiGLU] -.-> C
    C2[RoPE] -.-> C
    
    %% 评估
    D1[Zero-shot] -.-> D
    D2[Few-shot] -.-> D
    
    %% 结果
    E1[Beat GPT-3] -.-> E
    E2[1.4T tokens] -.-> E
    
    %% 偏见评估
    F1[Toxicity Prompts] -.-> F
    F2[TruthfulQA] -.-> F
    
    %% 微调
    G1[MMLU tuning] -.-> G
    
    %% 未来
    H1[Scale up] -.-> H
    H2[Bias research] -.-> H

    %% 样式
    classDef process fill:#bbdefb,stroke:#1976d2,stroke-width:2px
    classDef detail fill:#e3f2fd,stroke:#42a5f5,stroke-width:1px
    
    class A,B,C,D,E,F,G,H process
    class A1,A2,A3,A4,B1,B2,B3,C1,C2,D1,D2,E1,E2,F1,F2,G1,H1,H2 detail 

8.gpt简化流程图

flowchart TD
    %% 数据准备阶段
    A[大规模原始数据采集
网页、书籍、代码、论文、多模态等] --> B[数据清洗与过滤
去重、质量评分、安全过滤、隐私脱敏] B --> C[课程学习 Curriculum Learning] %% 多阶段训练 C --> D1[阶段1: 基础预训练
超大规模无监督学习
可能采用 MoE 架构] D1 --> D2[阶段2: 领域增强训练
代码、数学、推理、多语言强化] D2 --> D3[阶段3: 监督微调 SFT
高质量人工/合成指令数据] %% 对齐优化阶段 D3 --> E[对齐优化阶段] E --> E1[人类反馈强化学习 RLHF
奖励模型 + PPO] E --> E2[或直接偏好优化 DPO/SimPO
更高效替代方案] E --> E3[安全对齐与红队测试
Red Teaming, 越狱防护] %% 汇聚点 E1 --> F E2 --> F E3 --> F %% 评估与部署 F[多维度评估
能力评测、安全评估、性能测试] -->|通过| G[模型部署
量化、推理优化、API服务、监控] F -->|未通过| H[迭代优化
数据重采样 / 架构调整 / 超参调优] H --> C %% 样式定义 classDef dataStage fill:#e8f5e8,stroke:#2e7d32,stroke-width:2px classDef trainStage fill:#e3f2fd,stroke:#1565c0,stroke-width:2px classDef alignStage fill:#fff3e0,stroke:#ef6c00,stroke-width:2px classDef evalStage fill:#fce4ec,stroke:#c2185b,stroke-width:2px classDef deployStage fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px classDef branch fill:#fff9c4,stroke:#f57f17,stroke-width:2px class A,B dataStage class D1,D2,D3 trainStage class E,E1,E2,E3 alignStage class F evalStage class G deployStage class H branch

9.强化学习算法选择图

flowchart TD
    Start[选择RL算法] --> A{问题特性?}
    
    A -->|离散动作空间| B[离散动作算法]
    A -->|连续动作空间| C[连续动作算法]
    A -->|高维状态空间| D[深度RL算法]
    
    B --> B1{需要稳定性?}
    B1 -->|是| B2[DQN及其变体]
    B1 -->|否| B3[Q-learning, SARSA]
    
    C --> C1{策略类型?}
    C1 -->|随机策略| C2[A2C, A3C, PPO]
    C1 -->|确定性策略| C3[DDPG, TD3]
    C1 -->|最大熵| C4[SAC]
    
    D --> D1[所有深度RL算法
DQN, DDPG, PPO, SAC等] B2 --> E[最终选择] B3 --> E C2 --> E C3 --> E C4 --> E D1 --> E E --> F[实施训练] classDef choice fill:#e3f2fd,stroke:#1565c0 classDef algo fill:#fff3e0,stroke:#ef6c00 classDef final fill:#e8f5e8,stroke:#2e7d32 class A,B,C,D choice class B1,B2,B3,C1,C2,C3,C4,D1 algo class E,F final

强化学习流程图

flowchart TD
    A[初始化智能体] --> B[环境交互收集经验]
    B --> C[存储经验到回放缓冲区]
    C --> D{采样条件满足?}
    D -->|是| E[采样批次经验]
    D -->|否| B
    
    E --> F[计算目标值 TD/MC]
    F --> G[更新价值网络]
    G --> H[更新策略网络]
    H --> I[软更新目标网络]
    I --> J[评估策略性能]
    
    J --> K{性能收敛?}
    K -->|是| L[保存模型]
    K -->|否| M[调整超参数]
    M --> B
    
    L --> N[部署应用]
    
    classDef step fill:#e3f2fd,stroke:#1565c0
    classDef decision fill:#fff3e0,stroke:#ef6c00
    classDef final fill:#e8f5e8,stroke:#2e7d32
    class A,B,C,E,F,G,H,I,J step
    class D,K decision
    class L,N final

10.bert流程图

flowchart TB
  %% 配色与样式定义
  classDef inputStyle fill:#e3f2fd,stroke:#1e88e5,stroke-width:2px,color:#0d47a1
  classDef embedStyle fill:#fff3e0,stroke:#ff9800,stroke-width:2px,color:#e65100
  classDef encoderStyle fill:#e8f5e8,stroke:#43a047,stroke-width:2px,color:#2e7d32
  classDef headStyle fill:#fce4ec,stroke:#e91e63,stroke-width:2px,color:#ad1457
  classDef metaStyle fill:#f5f5f5,stroke:#9e9e9e,stroke-width:1px,color:#616161
  classDef outputStyle fill:#ede7f6,stroke:#673ab7,stroke-width:2px,color:#4527a0

  %% 输入与分词
  RawText[📝 原始文本]:::inputStyle
  Tokenizer[✂️ 分词器
WordPiece / BPE]:::inputStyle Tokens[🔢 Token IDs & Attention Mask]:::metaStyle %% 嵌入层 TokenEmb[📊 词向量]:::embedStyle PosEmb[📍 位置向量]:::embedStyle SegEmb[🔗 分割向量]:::embedStyle SumEmb[➕ 向量相加 + LayerNorm]:::embedStyle %% 编码器 EncoderStack[🏗️ Transformer 编码器 × N 层
BERT-base: N=12, 110M参数
BERT-large: N=24, 340M参数]:::encoderStyle %% 输出 EncoderOutputs[📤 编码器输出]:::metaStyle CLSVec[⭐ CLS 向量]:::outputStyle SeqOut[📋 序列输出]:::outputStyle %% 任务头 MLM[🤐 掩码语言模型]:::headStyle NSP[➡️ 下一句预测]:::headStyle Downstream[🚀 下游任务]:::headStyle %% 连接流程 RawText --> Tokenizer --> Tokens Tokens --> TokenEmb TokenEmb --> SumEmb PosEmb --> SumEmb SegEmb --> SumEmb SumEmb --> EncoderStack EncoderStack --> EncoderOutputs EncoderOutputs --> CLSVec EncoderOutputs --> SeqOut CLSVec --> NSP CLSVec --> Downstream SeqOut --> MLM SeqOut --> Downstream

配置梳理(中文表格,常见/代表性数值)

模型层数 (N)hidden_sizeattention heads参数量(约)关键区别 / 说明
BERT-base1276812~110M原始 BERT(Devlin et al.),含 MLM + NSP 预训练
BERT-large24102416~340M更深更宽,效果更好但计算开销大
DistilBERT6768 (通常)12 (通常)~66M通过知识蒸馏压缩 BERT-base,速度/内存优化
ALBERT (代表)12+ (可很深)768 (但参数共享)12较少(远低于 base)因式分解嵌入 + 跨层参数共享,显著降低参数量
RoBERTa与 BERT 同构与 BERT 同构与 BERT 同构与对应 BERT 相近训练更多数据、去掉 NSP、调优超参
TinyBERT / MobileBERT4~6256~768少量 heads小到几百万–几十万专为移动/边缘设备蒸馏/剪枝/量化优化
说明:表中“参数量(约)”与某些变体取决于具体实现(例如 HuggingFace 的 bert-small/medium/mini 系列、ALBERT 的不同规模、TinyBERT 的版本等)。上表给出常见/代表值或方向性比较;若需精确到某个 checkpoint(例如 albert-xxlarge-v2distilbert-base-uncased)我可以把确切模型参数数值拉来列出。

添加新评论