0. 术语与适用范围
本文将“大预言模型”按当前学术和工业语境解释为“大型预训练语言模型”(large pretrained language model / large language model)。流程主线覆盖从数据治理、分词、模型架构、分布式预训练,到中期再训练、监督微调、偏好对齐、评估、部署和持续迭代的闭环。默认模型类别为 GPT-3、PaLM、Llama、OLMo/OLMo 2 等公开文献中常见的 自回归 decoder-only Transformer 1 2 3 4。
需要明确的是,本文流程不把 LLM 训练简化为“抓数据—预训练—SFT—RLHF”四步,而是将其视为一个由数据治理、表示系统、学习算法、评测运营共同耦合的工程化科研系统。若目标模型不是语言模型,而是通用预测模型、扩散生成模型、纯视觉模型或语音模型,则数据形态、损失函数、评估体系与部署约束都需要重新定义。
1. 执行摘要
一个学术上严谨的 LLM 一体化训练流程至少包含四层:
- 数据与治理层:负责数据来源合法性、隐私与敏感信息处理、质量过滤、去重、数据污染控制、语料配比和文档化。GPT-3 的训练报告已经把 Common Crawl 质量过滤、模糊去重和 benchmark contamination 检查作为预训练流程的一部分 1。后续工作进一步说明,训练数据去重可以降低训练文本复现与隐私泄露风险 5 6。
- 表示与系统层:负责 tokenizer、模型结构、位置编码、归一化、混合精度、attention kernel、并行策略、I/O 管线和 checkpoint 可靠性。PaLM、FlashAttention、Megatron 与 FSDP 文档共同表明,大模型训练是否可行,常常取决于 IO-aware attention、低精度数值策略、状态分片、张量并行、流水线并行和上下文并行的组合,而不仅是 GPU 数量 2 7 8 9。
- 学习层:负责自监督预训练、中期再训练、监督微调和偏好对齐。SFT 主要让模型学会遵循指令格式;RLHF、DPO 或 RLVR 等偏好/验证式训练进一步优化“多个可行答案中哪个更符合人类偏好、安全约束或可验证目标” 10 11 12 4。
- 评测与运营层:负责离线 benchmark、安全红队、数据污染审计、校准与鲁棒性评估、服务化部署、在线监控和持续学习。HELM 的核心价值在于把准确率、校准、鲁棒性、公平性、偏见、毒性和效率放在同一框架下评估 13。
2. 一体化训练总流程图
flowchart TD
A0[需求定义与风险画像<br/>目标场景、能力边界、安全边界、合规边界] --> A1[数据获取计划<br/>Web、书籍、代码、论文、领域数据、合成数据]
subgraph G[数据治理与语料构建]
A1 --> G1[来源审计与许可证治理]
G1 --> G2[隐私、PII 与敏感信息处理]
G2 --> G3[语言识别、格式解析与文本规范化]
G3 --> G4[质量过滤<br/>规则、分类器、困惑度、小模型评分]
G4 --> G5[精确/近似去重<br/>Hash、MinHash、LSH、embedding 相似度]
G5 --> G6[Benchmark 去污染与隔离]
G6 --> G7[数据卡与版本化<br/>datasheet、manifest、hash、provenance]
G7 --> G8[语料分桶、采样权重与混合配比]
end
subgraph T[表示层:分词与训练样本构建]
G8 --> T1[Tokenizer 训练与验证<br/>BPE / SentencePiece-BPE / Unigram]
T1 --> T2[词表、特殊 token 与模板协议]
T2 --> T3[编码、packing、shuffle、data loader 验证]
T3 --> T4[训练/验证/测试切分冻结]
end
subgraph M[模型与系统设计]
T4 --> M1[基础架构选择]
M1 --> M2[Dense decoder-only Transformer]
M1 --> M3[可选:MoE 路由与专家层]
M1 --> M4[可选:多模态桥接<br/>视觉编码器、投影层、跨注意力]
M2 --> S0[数值与并行策略]
M3 --> S0
M4 --> S0
S0 --> S1[混合精度<br/>FP16 / BF16 / FP8]
S0 --> S2[FlashAttention / checkpoint recomputation]
S0 --> S3[DP / FSDP]
S0 --> S4[TP / PP]
S0 --> S5[CP:长上下文]
S0 --> S6[EP:MoE 专家并行]
end
subgraph P[基础模型学习]
S1 --> P1[自监督预训练<br/>Next-token prediction]
S2 --> P1
S3 --> P1
S4 --> P1
S5 --> P1
S6 --> P1
P1 --> P2[训练稳定性监控<br/>loss、gradient norm、activation、NaN、吞吐]
P2 --> P3[Checkpoint、恢复演练与中间评估]
P3 --> P4[基础模型评估<br/>PPL、MMLU、GSM8K、HumanEval、多语种]
P4 --> P5{是否需要中期再训练}
P5 -->|是| P6[Mid-training / Continued pretraining<br/>高质量域数据、数学、代码、长上下文、合成数据]
P6 --> P7[退火、模型 soup、通用回放与回归评估]
P5 -->|否| F1[进入后训练]
P7 --> F1
end
subgraph F[后训练与对齐]
F1 --> F2[SFT 数据构建<br/>指令、对话、工具调用、格式约束]
F2 --> F3[监督微调 SFT<br/>条件语言建模目标]
F3 --> F4[指令遵循、格式稳定性与拒答边界评估]
F4 --> F5{偏好/验证式对齐路径}
F5 -->|RLHF| F6[偏好比较数据]
F6 --> F7[奖励模型 RM]
F7 --> F8[PPO 或其他 KL 约束策略优化]
F5 -->|DPO| F9[偏好对样本]
F9 --> F10[DPO 直接偏好优化]
F5 -->|可验证任务| F11[RLVR / verifier-based RL]
F8 --> F12[对齐模型]
F10 --> F12
F11 --> F12
end
subgraph E[评测、发布与治理]
F12 --> E1[离线综合评测<br/>知识、推理、数学、代码、多语种、多模态]
E1 --> E2[安全评测<br/>毒性、偏见、越狱、隐私、幻觉、拒答]
E2 --> E3[数据污染与记忆复现审计]
E3 --> E4[效率评测<br/>吞吐、延迟、显存、成本、能耗]
E4 --> E5{是否达到发布门槛}
E5 -->|否| E6[问题定位与回流<br/>数据、架构、预训练、SFT、对齐]
E5 -->|是| D1[压缩、服务化与部署]
end
subgraph O[部署与持续迭代]
D1 --> O1[量化、蒸馏、KV cache 与 serving 调度]
O1 --> O2[灰度发布、监控与审计日志]
O2 --> O3[在线质量、漂移、安全、成本监控]
O3 --> O4{是否触发更新}
O4 -->|知识新鲜度| O5[RAG / 外部知识库更新]
O4 -->|能力或偏好退化| O6[增量 SFT / DPO / 继续预训练]
O5 --> E1
O6 --> E1
end
E6 --> G4
E6 --> P1
E6 --> F23. 成本与决策重心流程图
flowchart LR
C1[数据治理与 tokenizer<br/>低于预训练 FLOPs,但决定上限与风险] -->
C2[自监督预训练<br/>通常占训练计算量绝大部分] -->
C3[中期再训练<br/>小比例 FLOPs,高杠杆质量补强] -->
C4[SFT<br/>改变交互格式与指令遵循] -->
C5[偏好对齐<br/>token 量小,但强影响帮助性与安全性] -->
C6[评测与部署<br/>长期运营成本与风险中心]公开技术报告显示,预训练通常占总训练 FLOPs 的绝大部分;OLMo 2 明确把中期再训练作为 pretrain 与 post-train 之间的高杠杆阶段,用更小但更高质量的计算预算补强数学、代码、STEM、长上下文和高质量指令混合数据 4。
4. 阶段一:需求定义、风险画像与数据治理
数据治理不是预处理脚本的附属品,而是训练系统的第一性约束。一个严谨流程至少应包含以下对象:
- 来源审计:记录数据来源、采集时间、许可证、使用限制、爬取规则、授权边界和移除请求机制。
- 隐私与敏感信息处理:识别并过滤 PII、密钥、证件号、医疗/金融敏感字段、未成年人敏感信息等。
- 质量过滤:结合规则、语言识别器、去噪模型、困惑度过滤、小模型质量评分和人工抽检。
- 去重:同时做文档级精确去重、近似去重、片段级去重和跨集合泄漏检查。去重不仅影响训练效率,还影响模型记忆、隐私风险和评测可信度 5 6。
- Benchmark 去污染:将评测集及其变体从训练数据中隔离。GPT-3 使用 n-gram 匹配方式检查评测污染,这是公开训练报告中较早系统描述该问题的案例之一 1。
- 文档化:以 datasheet、model card、数据版本 manifest、hash 清单和数据 lineage 管理训练输入 14 15。
NIST AI RMF 强调在 AI 生命周期中持续执行 Govern、Map、Measure、Manage 四类活动;这与 LLM 从数据到部署的闭环治理高度一致 16。
5. 阶段二:分词、词表与样本构建
LLM 的 tokenizer 决定了文本如何被映射为离散符号序列,因此它不仅影响压缩率,也影响多语言覆盖、代码表达、特殊符号处理、上下文长度利用率和训练稳定性。BPE 使用频繁子词合并缓解稀有词问题 17;SentencePiece 允许从原始句子直接训练子词模型,并支持 BPE 与 Unigram LM 等方案 18。
| 分词路线 | 核心思想 | 优点 | 主要代价 | 适用场景 |
|---|---|---|---|---|
| BPE | 高频字符/子词对迭代合并 | 成熟、简单、可解释 | 对预分词和特殊字符规则敏感 | 英文、代码、通用 LLM |
| SentencePiece-BPE | 在 SentencePiece 框架下训练 BPE | 可从原始文本训练,语言无关 | 需仔细调词表规模与字符覆盖 | 多语言、混合语料 |
| SentencePiece-Unigram | 通过概率模型选择子词切分 | 对形态丰富语言更灵活 | 训练与调参更复杂 | 多语言、噪声语料 |
| 大词表 BPE | 增大 vocabulary,减少平均 token 数 | 对多语言和代码更友好 | embedding/LM head 参数更大 | 大规模通用 LLM、长训练 |
训练样本构建应冻结 train/validation/test 切分,保证验证集不被后续去重或采样策略污染。packing 策略需要避免 padding 浪费,同时应记录跨文档拼接边界,以便需要时做 loss mask、文档边界控制或长上下文评测。
6. 阶段三:模型架构与系统并行
现代 LLM 虽然仍以 Transformer 为主,但并不等于原始 2017 Transformer 的简单堆叠。常见稳定化组件包括 RoPE 位置编码、RMSNorm、SwiGLU、GQA、QK-norm、z-loss、混合精度和 IO-aware attention。RoPE 通过旋转位置编码增强相对位置信息建模 19;RMSNorm 以去均值之外的归一化简化计算并保持稳定性 20;GQA 在多头注意力质量和多查询注意力推理效率之间折中,降低 KV cache 成本 21。
6.1 并行策略比较
| 并行策略 | 切分维度 | 直接收益 | 主要风险/代价 | 典型触发条件 |
|---|---|---|---|---|
| DP | batch | 简单、吞吐稳定 | 每卡复制完整模型状态 | 模型可单卡容纳 |
| FSDP / ZeRO 类分片 | 参数、梯度、优化器状态 | 显著降低状态内存 | all-gather / reduce-scatter 通信复杂 | 参数状态放不下但单层可计算 |
| TP | 单层内部矩阵 | 跨卡承载大层 | 需要高带宽互连 | FFN/Attention 层过大 |
| PP | 网络深度 | 切分深网络 | pipeline bubble 与调度复杂 | 层数极多、整网过大 |
| CP | 序列长度 | 支持长上下文训练 | 序列维通信复杂 | 8K、32K 或更长上下文 |
| EP | MoE 专家维度 | 扩展稀疏专家容量 | all-to-all、路由负载均衡 | 使用 MoE |
Megatron Core 文档将 DP、TP、PP、CP、EP 作为大模型并行的主要维度,PyTorch FSDP 文档则重点说明参数、梯度和优化器状态分片对内存的影响 8 9。FlashAttention 的关键贡献是减少 GPU HBM 与片上 SRAM 之间的 I/O 开销,同时保持精确 attention 计算,不是近似 attention 7。
7. 阶段四:自监督预训练
对自回归 LLM,预训练目标通常是最大化 token 序列似然,即最小化下一 token 的交叉熵:
$$ \mathcal{L}_{\text{LM}}(\theta) = -\frac{1}{T}\sum_{t=1}^{T}\log p_{\theta}(x_t \mid x_{<t}). $$
困惑度定义为:
$$ \mathrm{PPL}=\exp(\mathcal{L}_{\text{LM}}). $$
在 dense decoder-only 模型中,常用粗略训练计算量估计为:
$$ C \approx 6ND, $$
其中 (N) 是参数量,(D) 是训练 token 数。该公式适合做 scaling law 与训练预算的近似比较,不应被理解为逐硬件 kernel 的精确 FLOPs 计数 22。
公开配方中有一些高置信度起点,但不应机械照搬:GPT-3 使用 Adam、(\beta_1=0.9)、(\beta_2=0.95)、(\epsilon=10^{-8})、全局梯度裁剪 1.0、cosine decay 和 weight decay 0.1 1;PaLM 使用 Adafactor 并引入 z-loss 增强数值稳定性 2;OLMo 2 将预训练、中期再训练与后训练拆分为更清晰的现代开放配方 4。
8. 阶段五:中期再训练与领域继续预训练
中期再训练(mid-training)或继续预训练(continued pretraining)位于基础预训练和后训练之间。它通常使用更高质量或更目标化的数据混合,例如数学、代码、STEM、长上下文、领域文本、工具轨迹或合成数据。OLMo 2 报告显示,pretrain / mid-train / post-train 的多阶段配方已经成为开放模型训练中可复现、可审计的重要路线 4。
对于领域模型,continued pretraining 与 domain-adaptive pretraining 可以提升域内能力,但也可能带来灾难性遗忘、通用能力下降或安全边界漂移。因此必须搭配:
- 通用数据回放集;
- 域内与域外双评测;
- 安全评测回归;
- 训练前后生成风格与拒答边界比较;
- 与 RAG 的成本收益比较。
Gururangan 等人的 “Don’t Stop Pretraining” 系统展示了 domain-adaptive 与 task-adaptive pretraining 在下游任务上的价值 23。若主要问题是知识新鲜度而非能力内化,优先考虑 RAG 或外部知识库更新往往更安全、可回滚且成本更低;RETRO 展示了检索增强语言模型在显式外部记忆方面的潜力 24。
9. 阶段六:监督微调(SFT)
SFT 的目标不是继续“泛泛续写互联网文本”,而是让基础模型学会在给定任务、指令、角色、格式和工具协议下输出符合预期的响应。其损失仍是条件语言建模交叉熵:
$$ \mathcal{L}_{\text{SFT}}(\theta) = -\mathbb{E}_{(x,y)\sim D_{\text{SFT}}} \sum_{t=1}^{|y|}\log \pi_{\theta}(y_t \mid x, y_{<t}). $$
Flan 研究表明,大规模 instruction finetuning 可以显著提升零样本和少样本泛化 25。Self-Instruct 进一步展示,在人工指令数据不足时,可以通过模型自举生成多样指令数据,但这类数据必须经过过滤、去重和质量控制,否则会放大模型自身偏差 26。
SFT 数据应覆盖:
- 单轮指令;
- 多轮对话;
- 复杂约束遵循;
- 工具调用与结构化输出;
- 拒答与安全边界;
- 多语言与本地化表达;
- 领域任务与通用任务的均衡混合。
10. 阶段七:偏好对齐与验证式强化学习
10.1 RLHF
RLHF 通常包括三步:收集偏好比较、训练奖励模型、用 PPO 或类似策略优化方法更新语言模型。奖励模型常用成对偏好损失:
$$ \mathcal{L}_{\text{RM}}(\phi) = -\mathbb{E}_{(x,y_w,y_l)\sim D} \left[ \log \sigma\left(r_\phi(x,y_w)-r_\phi(x,y_l)\right) \right]. $$
其中 (y_w) 是被偏好回答,(y_l) 是较不偏好的回答。InstructGPT 将监督示范、偏好比较、奖励模型和 PPO 连接成经典 RLHF 训练链条,并显示小得多但经过 RLHF 的模型可以在人工偏好上超过未对齐的大基础模型 10。PPO 本身是一种约束策略更新幅度的强化学习算法 27。
10.2 DPO
DPO 将带 KL 约束的奖励最大化问题重写为直接作用于策略的二分类目标,避免显式训练奖励模型和在线 RL 采样。经典 DPO 损失为:
$$ \mathcal{L}_{\text{DPO}}(\theta) = -\log \sigma\!\left( \beta \left[ \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)} \right] \right). $$
DPO 的主要优势是训练流程简单、稳定性较好、实现成本低;其主要风险是高度依赖偏好数据质量和参考模型选择 11。
10.3 RLAIF、Constitutional AI 与 RLVR
RLAIF 与 Constitutional AI 使用 AI 反馈或规则原则辅助生成偏好信号,适合扩展安全数据,但规则集和评审模型偏差会被系统性放大,因此需要独立红队和人工抽检 28。RLVR(reinforcement learning with verifiable rewards)适用于数学、代码、工具调用等可自动验证任务;其优势是奖励信号明确,缺点是适用范围受限。OLMo 2 的开放配方展示了 SFT → DPO → RLVR 的多阶段后训练路线 4。
| 方法 | 监督信号 | 是否需要奖励模型 | 优点 | 主要风险 | 适用场景 |
|---|---|---|---|---|---|
| SFT | 高质量示范 | 否 | 简单稳定,提升指令遵循 | 细粒度偏好不足 | 基础 chat、格式学习 |
| RLHF + PPO | 人类偏好比较 | 是 | 表达力强,可整合复杂奖励 | 训练复杂、reward hacking、成本高 | 高价值对话、安全对齐 |
| DPO | 偏好对样本 | 否 | 简洁稳定,门槛低 | 依赖偏好数据与参考模型 | 通用后训练 |
| RLAIF / CAI | AI 反馈或原则规则 | 可选 | 可扩大安全数据规模 | 规则与评审器偏差会放大 | 安全一致性训练 |
| RLVR | 自动可验证奖励 | 可选 | 对数学、代码强 | 只适合可验证任务 | 数学、代码、工具调用 |
11. 阶段八:综合评测与发布门槛
严谨评测不能只报一个总分,至少应覆盖以下维度:
- 语言建模质量:validation loss、PPL、长度分桶 PPL、不同语种 PPL。
- 知识与推理:MMLU、CMMLU、BIG-Bench 类任务、事实性评估 29 30。
- 数学能力:GSM8K、MATH、可验证推理轨迹 31。
- 代码能力:HumanEval、MBPP、单元测试通过率 32。
- 指令遵循与对话偏好:人工评测、pairwise win rate、格式稳定性、工具调用正确率。
- 校准与不确定性:置信度、拒答质量、过度自信率。
- 安全与鲁棒性:毒性、偏见、隐私泄露、越狱、红队、提示注入。
- 多语言与本地化:中文、少数语言、跨文化表达与本地知识。
- 多模态能力:如果包含视觉输入,应使用 VHELM 或同类多维评测,而不是只看 VQA 单分数 33。
- 效率与成本:tokens/s、首 token 延迟、单位请求成本、显存占用、能耗。
HELM 的价值在于把准确率、校准、鲁棒性、公平性、偏见、毒性和效率并列评估,而不是只优化一个 leaderboard 分数 13。
12. 阶段九:部署、压缩与服务化
训练完成并不等于系统可以上线。部署前通常要进行:
- 量化:LLM.int8、GPTQ、AWQ 等方法可以显著降低显存和推理成本 34 35 36。
- 蒸馏:将大模型能力转移到小模型,适合低延迟和边缘场景。
- KV cache 优化:包括分页、复用、压缩、batch 调度和 speculative decoding 配合。
- 服务治理:灰度发布、A/B 测试、回滚机制、请求审计、用户反馈处理。
- 安全护栏:系统提示、内容过滤器、工具权限控制、速率限制和异常检测。
部署后监控不应只看系统指标,还应监控模型行为:拒答率异常、幻觉率上升、特定领域错误、提示注入成功率、敏感信息泄露、成本漂移和用户反馈分布变化。
13. MoE 与多模态扩展分支
13.1 MoE
MoE 通过稀疏激活少数专家扩大总参数容量,但并不等于“复制多个 FFN”。其核心挑战包括路由稳定性、专家负载均衡、容量因子、all-to-all 通信和专家并行。Sparsely-Gated MoE 与 Switch Transformer 展示了稀疏专家模型的扩展潜力,同时也说明负载均衡损失和路由数值稳定性是必要设计项 37 38。
13.2 多模态
多模态 LLM 通常在文本主干之外增加视觉编码器、投影层、跨注意力或视觉指令微调数据。CLIP 使用图文对比学习获得视觉—文本对齐表征 39;Flamingo 使用视觉编码器、Perceiver resampler 和跨注意力把视觉输入接入语言模型 40;LLaVA 通过视觉指令微调快速构建图文对话能力 41。多模态模型评估必须同时关注感知、知识、推理、公平性、安全性和鲁棒性 33。
14. 高置信度工程起点
以下表格是基于公开配方整理的工程起点,不是理论最优值。正式训练必须通过 pilot run、ablation、scaling law 拟合和稳定性监控确定。
| 设计项 | 建议起点 | 说明 |
|---|---|---|
| 基础模型 | decoder-only Transformer | 当前主流通用生成式 LLM 路线 |
| 位置编码 | RoPE | 长上下文和相对位置信息建模常用 |
| 归一化 | RMSNorm / PreNorm 或现代稳定化变体 | 减少训练不稳定风险 |
| Attention | GQA + FlashAttention | 降低推理 KV cache 与训练 I/O 开销 |
| 优化器 | AdamW / Adam / Adafactor | GPT-3 用 Adam,PaLM 用 Adafactor |
| (\beta_1) | 0.9 | 多个公开配方常见值 |
| (\beta_2) | 0.95 起步 | 大模型常见;具体需 sweep |
| (\epsilon) | 1e-8 起步 | 需结合优化器和精度策略 |
| 梯度裁剪 | global norm 1.0 | GPT-3、PaLM 等公开配方常见 |
| 学习率调度 | warmup + cosine decay | 大规模预训练常见稳定选择 |
| 数据去重 | 文档级 + 片段级 + 近似去重 | 同时影响性能、隐私与评测可信度 |
| SFT | 高质量、多任务、多轮、含拒答边界 | 数据质量通常比数据量更关键 |
| 偏好对齐 | DPO 作为低复杂度起点;高价值场景考虑 RLHF | 取决于偏好数据、奖励复杂度和预算 |
| 评测 | HELM 风格多维评测 + 本地化 benchmark | 不应只看单一 leaderboard |
15. 最小可审计清单
训练发布前至少应能回答以下问题:
- 数据是否有来源、许可证、版本和 hash 清单?
- 是否做了 PII、密钥、敏感内容和未授权数据处理?
- 是否做了去重和 benchmark contamination 检查?
- tokenizer 是否经过多语言、代码、特殊字符和长文本验证?
- 是否有训练稳定性监控、checkpoint 恢复演练和异常回滚策略?
- 是否记录了模型架构、超参数、训练 token 数、数据混合权重和随机种子?
- 是否完成基础能力、后训练能力、安全、偏见、隐私、鲁棒性和效率评测?
- 是否有发布门槛、灰度策略、监控指标和下线/回滚机制?
- 如果部署后继续学习,是否区分了 RAG 知识更新和参数更新?
- 是否保留了可复现实验记录、评测脚本和模型卡?
16. 参考文献
- Brown, T. B. et al. (2020). Language Models are Few-Shot Learners. NeurIPS. arXiv:2005.14165. https://arxiv.org/abs/2005.14165 ↩
- Chowdhery, A. et al. (2022). PaLM: Scaling Language Modeling with Pathways. arXiv:2204.02311. https://arxiv.org/abs/2204.02311 ↩
- Touvron, H. et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv:2307.09288. https://arxiv.org/abs/2307.09288 ↩
- Team OLMo et al. (2025). 2 OLMo 2 Furious. arXiv:2501.00656. https://arxiv.org/abs/2501.00656 ↩
- Lee, K. et al. (2021). Deduplicating Training Data Makes Language Models Better. arXiv:2107.06499. https://arxiv.org/abs/2107.06499 ↩
- Kandpal, N. et al. (2022). Deduplicating Training Data Mitigates Privacy Risks in Language Models. arXiv:2202.06539. https://arxiv.org/abs/2202.06539 ↩
- Dao, T. et al. (2022). FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness. arXiv:2205.14135. https://arxiv.org/abs/2205.14135 ↩
- NVIDIA. Megatron Core Parallelism Guide. Documentation. https://docs.nvidia.com/megatron-core/developer-guide/0.16.0/user-guide/parallelism-guide.html ↩
- PyTorch. Fully Sharded Data Parallel Tutorial. Documentation. https://docs.pytorch.org/tutorials/intermediate/FSDP_tutorial.html ↩
- Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. arXiv:2203.02155. https://arxiv.org/abs/2203.02155 ↩
- Rafailov, R. et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. arXiv:2305.18290. https://arxiv.org/abs/2305.18290 ↩
- Stiennon, N. et al. (2020). Learning to Summarize from Human Feedback. arXiv:2009.01325. https://arxiv.org/abs/2009.01325 ↩
- Liang, P. et al. (2022). Holistic Evaluation of Language Models. arXiv:2211.09110. https://arxiv.org/abs/2211.09110 ↩
- Gebru, T. et al. (2018). Datasheets for Datasets. arXiv:1803.09010. https://arxiv.org/abs/1803.09010 ↩
- Mitchell, M. et al. (2019). Model Cards for Model Reporting. arXiv:1810.03993. https://arxiv.org/abs/1810.03993 ↩
- NIST. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). NIST AI 100-1. https://nvlpubs.nist.gov/nistpubs/ai/nist.ai.100-1.pdf ↩
- Sennrich, R., Haddow, B., and Birch, A. (2016). Neural Machine Translation of Rare Words with Subword Units. ACL Anthology. https://aclanthology.org/P16-1162/ ↩
- Kudo, T., and Richardson, J. (2018). SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing. arXiv:1808.06226. https://arxiv.org/abs/1808.06226 ↩
- Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864. https://arxiv.org/abs/2104.09864 ↩
- Zhang, B., and Sennrich, R. (2019). Root Mean Square Layer Normalization. arXiv:1910.07467. https://arxiv.org/abs/1910.07467 ↩
- Ainslie, J. et al. (2023). GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints. arXiv:2305.13245. https://arxiv.org/abs/2305.13245 ↩
- Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361. https://arxiv.org/abs/2001.08361 ↩
- Gururangan, S. et al. (2020). Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks. arXiv:2004.10964. https://arxiv.org/abs/2004.10964 ↩
- Borgeaud, S. et al. (2021). Improving language models by retrieving from trillions of tokens. arXiv:2112.04426. https://arxiv.org/abs/2112.04426 ↩
- Wei, J. et al. (2021). Finetuned Language Models Are Zero-Shot Learners. arXiv:2109.01652. https://arxiv.org/abs/2109.01652 ↩
- Wang, Y. et al. (2022). Self-Instruct: Aligning Language Models with Self-Generated Instructions. arXiv:2212.10560. https://arxiv.org/abs/2212.10560 ↩
- Schulman, J. et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347. https://arxiv.org/abs/1707.06347 ↩
- Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073. https://arxiv.org/abs/2212.08073 ↩
- Hendrycks, D. et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300. https://arxiv.org/abs/2009.03300 ↩
- Li, H. et al. (2023). CMMLU: Measuring massive multitask language understanding in Chinese. arXiv:2306.09212. https://arxiv.org/abs/2306.09212 ↩
- Cobbe, K. et al. (2021). Training Verifiers to Solve Math Word Problems. arXiv:2110.14168. https://arxiv.org/abs/2110.14168 ↩
- Chen, M. et al. (2021). Evaluating Large Language Models Trained on Code. arXiv:2107.03374. https://arxiv.org/abs/2107.03374 ↩
- Lee, T. et al. (2024). VHELM: A Holistic Evaluation of Vision Language Models. arXiv:2410.07112. https://arxiv.org/abs/2410.07112 ↩
- Dettmers, T. et al. (2022). LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale. arXiv:2208.07339. https://arxiv.org/abs/2208.07339 ↩
- Frantar, E. et al. (2022). GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers. arXiv:2210.17323. https://arxiv.org/abs/2210.17323 ↩
- Lin, J. et al. (2023). AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration. arXiv:2306.00978. https://arxiv.org/abs/2306.00978 ↩
- Shazeer, N. et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. arXiv:1701.06538. https://arxiv.org/abs/1701.06538 ↩
- Fedus, W., Zoph, B., and Shazeer, N. (2022). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. JMLR. https://jmlr.org/papers/v23/21-0998.html ↩
- Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. https://arxiv.org/abs/2103.00020 ↩
- Alayrac, J.-B. et al. (2022). Flamingo: a Visual Language Model for Few-Shot Learning. arXiv:2204.14198. https://arxiv.org/abs/2204.14198 ↩
- Liu, H. et al. (2023). Visual Instruction Tuning. arXiv:2304.08485. https://arxiv.org/abs/2304.08485 ↩