1.BERT核心架构
flowchart TD
subgraph A[BERT核心架构]
direction TB
A1[Transformer
编码器] --> A2[嵌入层
Token + Segment + Position];
A2 --> A3[预训练任务
MLM + NSP];
end
subgraph B[核心创新点]
B1[深度双向表征]
B2[预训练-微调范式]
B3[基于Transformer的编码器]
B4[动态上下文词向量]
end
subgraph C[应用场景]
direction TB
C1[文本分类
情感分析/垃圾邮件检测]
C2[句子对任务
语义相似度/NLI]
C3[问答系统
机器阅读理解]
C4[序列标注
命名实体识别]
end
subgraph D[生态系统与衍生模型]
D1[鲁棒优化版
RoBERTa]
D2[高效压缩版
DistilBERT/ALBERT]
D3[领域专用版
BioBERT/SciBERT]
D4[多模态扩展版
VideoBERT/VL-BERT]
end
A -- 基础架构 --> B
B -- 技术优势 --> C
B -- 社区与工业界发展 --> D
A -- 预训练模型 --> D
2.Transformer流程图
flowchart TD
subgraph A [输入处理]
direction LR
A1[输入序列] -- 词嵌入 --> A2[输入嵌入矩阵]
A2 -- 添加位置信息 --> A3[位置编码]
end
subgraph B [编码器栈]
B0[编码器输入]
subgraph B1 [编码器层 Nx]
direction TB
C1[多头自注意力]
C2[Add & Norm
残差连接&层归一化]
C3[前馈网络]
C4[Add & Norm
残差连接&层归一化]
C1 --> C2 --> C3 --> C4
end
B0 --> B1
B1 --> B5[编码器输出]
end
subgraph D [解码器栈]
D0[解码器输入]
subgraph D1 [解码器层 Nx]
direction TB
E1[掩码多头自注意力]
E2[Add & Norm]
E3[多头编码-解码注意力]
E4[Add & Norm]
E5[前馈网络]
E6[Add & Norm]
E1 --> E2 --> E3 --> E4 --> E5 --> E6
end
D0 --> D1
D1 --> D7[解码器输出]
end
subgraph F [输出处理]
F1[线性层]
F2[Softmax]
F3[输出概率]
end
A3 --> B0
B5 -- 作为K V --> E3
D7 --> F1
F1 --> F2
F2 --> F3
--
3.deepseek训练流程图
graph TD
A[开始] --> B[数据收集]
B --> C[数据预处理]
C --> D[数据清洗与去重]
D --> E[数据格式化]
E --> F[模型架构设计]
F --> G[初始化模型参数]
G --> H[预训练阶段]
H --> I[大规模无监督学习]
I --> J[下一个词预测任务]
J --> K[有监督微调]
K --> L[指令遵循数据训练]
L --> M[对话格式优化]
M --> N[奖励模型训练]
N --> O[收集人类偏好数据]
O --> P[训练奖励评分模型]
P --> Q[强化学习优化]
Q --> R[PPO算法训练]
R --> S[基于奖励模型优化]
S --> T[模型评估]
T --> U[基准测试]
U --> V[人工评估]
V --> W{性能达标?}
W -->|是| X[模型部署]
W -->|否| Y[迭代优化]
Y --> K
X --> Z[结束]
%% 样式定义
classDef preTrain fill:#e1f5fe
classDef sft fill:#f3e5f5
classDef rlhf fill:#e8f5e8
classDef eval fill:#fff3e0
class I,J preTrain
class L,M sft
class O,P,Q,R,S rlhf
class T,U,V,W eval
3.1训练阶段流程图
flowchart TD
subgraph A [数据准备阶段]
A1[多源数据收集
网页/书籍/代码/学术论文] --> A2[数据去重与清洗]
A2 --> A3[质量过滤与毒性检测]
A3 --> A4[文本标准化与分词]
end
subgraph B [预训练阶段]
B1[Transformer架构初始化] --> B2[大规模自监督学习]
B2 --> B3[下一个词预测任务]
B3 --> B4[梯度累积与优化]
B4 --> B5[检查点保存]
end
subgraph C [有监督微调阶段]
C1[收集指令遵循数据] --> C2[构建对话格式]
C2 --> C3[SFT训练]
C3 --> C4[对话能力优化]
end
subgraph D [奖励模型训练]
D1[收集人类偏好数据] --> D2[数据对排序]
D2 --> D3[训练RM模型]
D3 --> D4[输出质量评分能力]
end
subgraph E [强化学习阶段]
E1[初始化PPO算法] --> E2[RM提供奖励信号]
E2 --> E3[策略梯度更新]
E3 --> E4[KL散度约束]
E4 --> E5[多轮迭代优化]
end
subgraph F [评估与部署]
F1[多维度基准测试] --> F2[人工质量评估]
F2 --> F3[安全性与对齐检测]
F3 --> F4[模型压缩与优化]
F4 --> F5[部署上线]
end
A --> B
B --> C
C --> D
D --> E
E --> F
3.2训练数据流程详图
flowchart LR
subgraph G [训练数据流]
G1[原始文本数据] --> G2[数据清洗管道]
G2 --> G3[质量过滤]
G3 --> G4[分词处理]
G4 --> G5[批次生成]
end
subgraph H [模型训练流]
H1[数据加载] --> H2[前向传播]
H2 --> H3[损失计算]
H3 --> H4[反向传播]
H4 --> H5[参数更新]
H5 --> H6[验证评估]
end
subgraph I [RLHF训练流]
I1[SFT模型] --> I2[生成响应]
I2 --> I3[RM评分]
I3 --> I4[PPO更新]
I4 --> I5[策略改进]
end
G --> H
H --> I
3.3关键组件关系图
graph TB
A[DeepSeek训练框架] --> B[核心组件]
B --> C[数据处理系统]
B --> D[分布式训练]
B --> E[评估体系]
C --> C1[数据收集]
C --> C2[质量过滤]
C --> C3[数据增强]
D --> D1[模型并行]
D --> D2[数据并行]
D --> D3[混合精度训练]
E --> E1[自动评估]
E --> E2[人工评估]
E --> E3[安全评估]
F[训练阶段] --> G[预训练]
F --> H[有监督微调]
F --> I[强化学习]
G --> G1[语言建模]
H --> H1[指令调优]
I --> I1[PPO优化]
J[输出] --> K[DeepSeek模型]
K --> L[文本生成]
K --> M[代码生成]
K --> N[数学推理]
%% 连接关系
C --> G
D --> G
D --> H
D --> I
E --> J
G --> H
H --> I
I --> J
3.4训练资源配置图
flowchart TD
A[硬件基础设施] --> B[计算资源]
A --> C[存储资源]
A --> D[网络资源]
B --> B1[GPU集群]
B --> B2[TPU资源]
B --> B3[CPU资源]
C --> C1[高速存储]
C --> C2[分布式文件系统]
C --> C3[数据缓存]
D --> D1[高速网络]
D --> D2[通信优化]
E[软件框架] --> F[深度学习框架]
E --> G[分布式训练]
E --> H[监控系统]
F --> F1[PyTorch]
F --> F2[自定义优化]
G --> G1[模型并行]
G --> G2[数据并行]
H --> H1[训练监控]
H --> H2[资源监控]
H --> H3[日志分析]
I[训练流程] --> J[自动容错]
I --> K[断点续训]
I --> L[动态调度]
--
4.可视化图
pie title 饼图分布
"市场份额分析" : 35
"预算分配" : 25
"用户画像" : 15
"资源分配" : 12
"调查结果" : 8
"其他" : 5
5.时间线图
timeline
title 技术发展时间线
1990年代 : Web诞生 静态网页
2000年代 : Web2.0 动态交互
2010年代 : 移动互联网 云计算
2020年代 : AI时代 元宇宙
未来 : 量子计算 脑机接口
--
6.git分支图
gitGraph
commit
commit
branch develop
checkout develop
commit
commit
branch feature/login
checkout feature/login
commit
commit
checkout develop
merge feature/login
branch release/v1.0
checkout release/v1.0
commit
checkout main
merge release/v1.0
checkout develop
commit
--
7.LLama思维导图简化版
graph TD
A[Pre-training Data] --> B[Training Process]
B --> C[Model Architecture]
C --> D[Model Evaluation]
D --> E[Performance Results]
E --> F[Bias Evaluation]
F --> G[Instruction Tuning]
G --> H[Future Work]
%% 数据源
A1[CommonCrawl 67%] -.-> A
A2[C4 15%] -.-> A
A3[GitHub 4.5%] -.-> A
A4[Wikipedia 4.5%] -.-> A
%% 训练配置
B1[4M token batch] -.-> B
B2[Cosine LR] -.-> B
B3[AdamW] -.-> B
%% 架构
C1[SwiGLU] -.-> C
C2[RoPE] -.-> C
%% 评估
D1[Zero-shot] -.-> D
D2[Few-shot] -.-> D
%% 结果
E1[Beat GPT-3] -.-> E
E2[1.4T tokens] -.-> E
%% 偏见评估
F1[Toxicity Prompts] -.-> F
F2[TruthfulQA] -.-> F
%% 微调
G1[MMLU tuning] -.-> G
%% 未来
H1[Scale up] -.-> H
H2[Bias research] -.-> H
%% 样式
classDef process fill:#bbdefb,stroke:#1976d2,stroke-width:2px
classDef detail fill:#e3f2fd,stroke:#42a5f5,stroke-width:1px
class A,B,C,D,E,F,G,H process
class A1,A2,A3,A4,B1,B2,B3,C1,C2,D1,D2,E1,E2,F1,F2,G1,H1,H2 detail
8.gpt简化流程图
flowchart TD
%% 数据准备阶段
A[大规模原始数据采集
网页、书籍、代码、论文、多模态等] --> B[数据清洗与过滤
去重、质量评分、安全过滤、隐私脱敏]
B --> C[课程学习 Curriculum Learning]
%% 多阶段训练
C --> D1[阶段1: 基础预训练
超大规模无监督学习
可能采用 MoE 架构]
D1 --> D2[阶段2: 领域增强训练
代码、数学、推理、多语言强化]
D2 --> D3[阶段3: 监督微调 SFT
高质量人工/合成指令数据]
%% 对齐优化阶段
D3 --> E[对齐优化阶段]
E --> E1[人类反馈强化学习 RLHF
奖励模型 + PPO]
E --> E2[或直接偏好优化 DPO/SimPO
更高效替代方案]
E --> E3[安全对齐与红队测试
Red Teaming, 越狱防护]
%% 汇聚点
E1 --> F
E2 --> F
E3 --> F
%% 评估与部署
F[多维度评估
能力评测、安全评估、性能测试] -->|通过| G[模型部署
量化、推理优化、API服务、监控]
F -->|未通过| H[迭代优化
数据重采样 / 架构调整 / 超参调优]
H --> C
%% 样式定义
classDef dataStage fill:#e8f5e8,stroke:#2e7d32,stroke-width:2px
classDef trainStage fill:#e3f2fd,stroke:#1565c0,stroke-width:2px
classDef alignStage fill:#fff3e0,stroke:#ef6c00,stroke-width:2px
classDef evalStage fill:#fce4ec,stroke:#c2185b,stroke-width:2px
classDef deployStage fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px
classDef branch fill:#fff9c4,stroke:#f57f17,stroke-width:2px
class A,B dataStage
class D1,D2,D3 trainStage
class E,E1,E2,E3 alignStage
class F evalStage
class G deployStage
class H branch
9.强化学习算法选择图
flowchart TD
Start[选择RL算法] --> A{问题特性?}
A -->|离散动作空间| B[离散动作算法]
A -->|连续动作空间| C[连续动作算法]
A -->|高维状态空间| D[深度RL算法]
B --> B1{需要稳定性?}
B1 -->|是| B2[DQN及其变体]
B1 -->|否| B3[Q-learning, SARSA]
C --> C1{策略类型?}
C1 -->|随机策略| C2[A2C, A3C, PPO]
C1 -->|确定性策略| C3[DDPG, TD3]
C1 -->|最大熵| C4[SAC]
D --> D1[所有深度RL算法
DQN, DDPG, PPO, SAC等]
B2 --> E[最终选择]
B3 --> E
C2 --> E
C3 --> E
C4 --> E
D1 --> E
E --> F[实施训练]
classDef choice fill:#e3f2fd,stroke:#1565c0
classDef algo fill:#fff3e0,stroke:#ef6c00
classDef final fill:#e8f5e8,stroke:#2e7d32
class A,B,C,D choice
class B1,B2,B3,C1,C2,C3,C4,D1 algo
class E,F final
强化学习流程图
flowchart TD
A[初始化智能体] --> B[环境交互收集经验]
B --> C[存储经验到回放缓冲区]
C --> D{采样条件满足?}
D -->|是| E[采样批次经验]
D -->|否| B
E --> F[计算目标值 TD/MC]
F --> G[更新价值网络]
G --> H[更新策略网络]
H --> I[软更新目标网络]
I --> J[评估策略性能]
J --> K{性能收敛?}
K -->|是| L[保存模型]
K -->|否| M[调整超参数]
M --> B
L --> N[部署应用]
classDef step fill:#e3f2fd,stroke:#1565c0
classDef decision fill:#fff3e0,stroke:#ef6c00
classDef final fill:#e8f5e8,stroke:#2e7d32
class A,B,C,E,F,G,H,I,J step
class D,K decision
class L,N final
10.bert流程图
flowchart TB %% 配色与样式定义 classDef inputStyle fill:#e3f2fd,stroke:#1e88e5,stroke-width:2px,color:#0d47a1 classDef embedStyle fill:#fff3e0,stroke:#ff9800,stroke-width:2px,color:#e65100 classDef encoderStyle fill:#e8f5e8,stroke:#43a047,stroke-width:2px,color:#2e7d32 classDef headStyle fill:#fce4ec,stroke:#e91e63,stroke-width:2px,color:#ad1457 classDef metaStyle fill:#f5f5f5,stroke:#9e9e9e,stroke-width:1px,color:#616161 classDef outputStyle fill:#ede7f6,stroke:#673ab7,stroke-width:2px,color:#4527a0 %% 输入与分词 RawText[📝 原始文本]:::inputStyle Tokenizer[✂️ 分词器
WordPiece / BPE]:::inputStyle Tokens[🔢 Token IDs & Attention Mask]:::metaStyle %% 嵌入层 TokenEmb[📊 词向量]:::embedStyle PosEmb[📍 位置向量]:::embedStyle SegEmb[🔗 分割向量]:::embedStyle SumEmb[➕ 向量相加 + LayerNorm]:::embedStyle %% 编码器 EncoderStack[🏗️ Transformer 编码器 × N 层
BERT-base: N=12, 110M参数
BERT-large: N=24, 340M参数]:::encoderStyle %% 输出 EncoderOutputs[📤 编码器输出]:::metaStyle CLSVec[⭐ CLS 向量]:::outputStyle SeqOut[📋 序列输出]:::outputStyle %% 任务头 MLM[🤐 掩码语言模型]:::headStyle NSP[➡️ 下一句预测]:::headStyle Downstream[🚀 下游任务]:::headStyle %% 连接流程 RawText --> Tokenizer --> Tokens Tokens --> TokenEmb TokenEmb --> SumEmb PosEmb --> SumEmb SegEmb --> SumEmb SumEmb --> EncoderStack EncoderStack --> EncoderOutputs EncoderOutputs --> CLSVec EncoderOutputs --> SeqOut CLSVec --> NSP CLSVec --> Downstream SeqOut --> MLM SeqOut --> Downstream
配置梳理(中文表格,常见/代表性数值)
| 模型 | 层数 (N) | hidden_size | attention heads | 参数量(约) | 关键区别 / 说明 |
|---|---|---|---|---|---|
| BERT-base | 12 | 768 | 12 | ~110M | 原始 BERT(Devlin et al.),含 MLM + NSP 预训练 |
| BERT-large | 24 | 1024 | 16 | ~340M | 更深更宽,效果更好但计算开销大 |
| DistilBERT | 6 | 768 (通常) | 12 (通常) | ~66M | 通过知识蒸馏压缩 BERT-base,速度/内存优化 |
| ALBERT (代表) | 12+ (可很深) | 768 (但参数共享) | 12 | 较少(远低于 base) | 因式分解嵌入 + 跨层参数共享,显著降低参数量 |
| RoBERTa | 与 BERT 同构 | 与 BERT 同构 | 与 BERT 同构 | 与对应 BERT 相近 | 训练更多数据、去掉 NSP、调优超参 |
| TinyBERT / MobileBERT | 4~6 | 256~768 | 少量 heads | 小到几百万–几十万 | 专为移动/边缘设备蒸馏/剪枝/量化优化 |
说明:表中“参数量(约)”与某些变体取决于具体实现(例如 HuggingFace 的bert-small/medium/mini系列、ALBERT 的不同规模、TinyBERT 的版本等)。上表给出常见/代表值或方向性比较;若需精确到某个 checkpoint(例如albert-xxlarge-v2、distilbert-base-uncased)我可以把确切模型参数数值拉来列出。