大型预训练语言模型一体化训练流程

0. 术语与适用范围

本文将“大预言模型”按当前学术和工业语境解释为“大型预训练语言模型”（large pretrained language model / large language model）。流程主线覆盖从数据治理、分词、模型架构、分布式预训练，到中期再训练、监督微调、偏好对齐、评估、部署和持续迭代的闭环。默认模型类别为 GPT-3、PaLM、Llama、OLMo/OLMo 2 等公开文献中常见的 自回归 decoder-only Transformer ¹ ² ³ ⁴。

需要明确的是，本文流程不把 LLM 训练简化为“抓数据—预训练—SFT—RLHF”四步，而是将其视为一个由数据治理、表示系统、学习算法、评测运营共同耦合的工程化科研系统。若目标模型不是语言模型，而是通用预测模型、扩散生成模型、纯视觉模型或语音模型，则数据形态、损失函数、评估体系与部署约束都需要重新定义。

1. 执行摘要

一个学术上严谨的 LLM 一体化训练流程至少包含四层：

数据与治理层：负责数据来源合法性、隐私与敏感信息处理、质量过滤、去重、数据污染控制、语料配比和文档化。GPT-3 的训练报告已经把 Common Crawl 质量过滤、模糊去重和 benchmark contamination 检查作为预训练流程的一部分 ¹。后续工作进一步说明，训练数据去重可以降低训练文本复现与隐私泄露风险 ⁵ ⁶。
表示与系统层：负责 tokenizer、模型结构、位置编码、归一化、混合精度、attention kernel、并行策略、I/O 管线和 checkpoint 可靠性。PaLM、FlashAttention、Megatron 与 FSDP 文档共同表明，大模型训练是否可行，常常取决于 IO-aware attention、低精度数值策略、状态分片、张量并行、流水线并行和上下文并行的组合，而不仅是 GPU 数量 ² ⁷ ⁸ ⁹。
学习层：负责自监督预训练、中期再训练、监督微调和偏好对齐。SFT 主要让模型学会遵循指令格式；RLHF、DPO 或 RLVR 等偏好/验证式训练进一步优化“多个可行答案中哪个更符合人类偏好、安全约束或可验证目标” ¹⁰ ¹¹ ¹² ⁴。
评测与运营层：负责离线 benchmark、安全红队、数据污染审计、校准与鲁棒性评估、服务化部署、在线监控和持续学习。HELM 的核心价值在于把准确率、校准、鲁棒性、公平性、偏见、毒性和效率放在同一框架下评估 ¹³。

2. 一体化训练总流程图

flowchart TD
    A0[需求定义与风险画像<br/>目标场景、能力边界、安全边界、合规边界] --> A1[数据获取计划<br/>Web、书籍、代码、论文、领域数据、合成数据]

    subgraph G[数据治理与语料构建]
        A1 --> G1[来源审计与许可证治理]
        G1 --> G2[隐私、PII 与敏感信息处理]
        G2 --> G3[语言识别、格式解析与文本规范化]
        G3 --> G4[质量过滤<br/>规则、分类器、困惑度、小模型评分]
        G4 --> G5[精确/近似去重<br/>Hash、MinHash、LSH、embedding 相似度]
        G5 --> G6[Benchmark 去污染与隔离]
        G6 --> G7[数据卡与版本化<br/>datasheet、manifest、hash、provenance]
        G7 --> G8[语料分桶、采样权重与混合配比]
    end

    subgraph T[表示层：分词与训练样本构建]
        G8 --> T1[Tokenizer 训练与验证<br/>BPE / SentencePiece-BPE / Unigram]
        T1 --> T2[词表、特殊 token 与模板协议]
        T2 --> T3[编码、packing、shuffle、data loader 验证]
        T3 --> T4[训练/验证/测试切分冻结]
    end

    subgraph M[模型与系统设计]
        T4 --> M1[基础架构选择]
        M1 --> M2[Dense decoder-only Transformer]
        M1 --> M3[可选：MoE 路由与专家层]
        M1 --> M4[可选：多模态桥接<br/>视觉编码器、投影层、跨注意力]
        M2 --> S0[数值与并行策略]
        M3 --> S0
        M4 --> S0
        S0 --> S1[混合精度<br/>FP16 / BF16 / FP8]
        S0 --> S2[FlashAttention / checkpoint recomputation]
        S0 --> S3[DP / FSDP]
        S0 --> S4[TP / PP]
        S0 --> S5[CP：长上下文]
        S0 --> S6[EP：MoE 专家并行]
    end

    subgraph P[基础模型学习]
        S1 --> P1[自监督预训练<br/>Next-token prediction]
        S2 --> P1
        S3 --> P1
        S4 --> P1
        S5 --> P1
        S6 --> P1
        P1 --> P2[训练稳定性监控<br/>loss、gradient norm、activation、NaN、吞吐]
        P2 --> P3[Checkpoint、恢复演练与中间评估]
        P3 --> P4[基础模型评估<br/>PPL、MMLU、GSM8K、HumanEval、多语种]
        P4 --> P5{是否需要中期再训练}
        P5 -->|是| P6[Mid-training / Continued pretraining<br/>高质量域数据、数学、代码、长上下文、合成数据]
        P6 --> P7[退火、模型 soup、通用回放与回归评估]
        P5 -->|否| F1[进入后训练]
        P7 --> F1
    end

    subgraph F[后训练与对齐]
        F1 --> F2[SFT 数据构建<br/>指令、对话、工具调用、格式约束]
        F2 --> F3[监督微调 SFT<br/>条件语言建模目标]
        F3 --> F4[指令遵循、格式稳定性与拒答边界评估]
        F4 --> F5{偏好/验证式对齐路径}
        F5 -->|RLHF| F6[偏好比较数据]
        F6 --> F7[奖励模型 RM]
        F7 --> F8[PPO 或其他 KL 约束策略优化]
        F5 -->|DPO| F9[偏好对样本]
        F9 --> F10[DPO 直接偏好优化]
        F5 -->|可验证任务| F11[RLVR / verifier-based RL]
        F8 --> F12[对齐模型]
        F10 --> F12
        F11 --> F12
    end

    subgraph E[评测、发布与治理]
        F12 --> E1[离线综合评测<br/>知识、推理、数学、代码、多语种、多模态]
        E1 --> E2[安全评测<br/>毒性、偏见、越狱、隐私、幻觉、拒答]
        E2 --> E3[数据污染与记忆复现审计]
        E3 --> E4[效率评测<br/>吞吐、延迟、显存、成本、能耗]
        E4 --> E5{是否达到发布门槛}
        E5 -->|否| E6[问题定位与回流<br/>数据、架构、预训练、SFT、对齐]
        E5 -->|是| D1[压缩、服务化与部署]
    end

    subgraph O[部署与持续迭代]
        D1 --> O1[量化、蒸馏、KV cache 与 serving 调度]
        O1 --> O2[灰度发布、监控与审计日志]
        O2 --> O3[在线质量、漂移、安全、成本监控]
        O3 --> O4{是否触发更新}
        O4 -->|知识新鲜度| O5[RAG / 外部知识库更新]
        O4 -->|能力或偏好退化| O6[增量 SFT / DPO / 继续预训练]
        O5 --> E1
        O6 --> E1
    end

    E6 --> G4
    E6 --> P1
    E6 --> F2

3. 成本与决策重心流程图

flowchart LR
    C1[数据治理与 tokenizer<br/>低于预训练 FLOPs，但决定上限与风险] -->
    C2[自监督预训练<br/>通常占训练计算量绝大部分] -->
    C3[中期再训练<br/>小比例 FLOPs，高杠杆质量补强] -->
    C4[SFT<br/>改变交互格式与指令遵循] -->
    C5[偏好对齐<br/>token 量小，但强影响帮助性与安全性] -->
    C6[评测与部署<br/>长期运营成本与风险中心]

公开技术报告显示，预训练通常占总训练 FLOPs 的绝大部分；OLMo 2 明确把中期再训练作为 pretrain 与 post-train 之间的高杠杆阶段，用更小但更高质量的计算预算补强数学、代码、STEM、长上下文和高质量指令混合数据 ⁴。

4. 阶段一：需求定义、风险画像与数据治理

数据治理不是预处理脚本的附属品，而是训练系统的第一性约束。一个严谨流程至少应包含以下对象：

来源审计：记录数据来源、采集时间、许可证、使用限制、爬取规则、授权边界和移除请求机制。
隐私与敏感信息处理：识别并过滤 PII、密钥、证件号、医疗/金融敏感字段、未成年人敏感信息等。
质量过滤：结合规则、语言识别器、去噪模型、困惑度过滤、小模型质量评分和人工抽检。
去重：同时做文档级精确去重、近似去重、片段级去重和跨集合泄漏检查。去重不仅影响训练效率，还影响模型记忆、隐私风险和评测可信度 ⁵ ⁶。
Benchmark 去污染：将评测集及其变体从训练数据中隔离。GPT-3 使用 n-gram 匹配方式检查评测污染，这是公开训练报告中较早系统描述该问题的案例之一 ¹。
文档化：以 datasheet、model card、数据版本 manifest、hash 清单和数据 lineage 管理训练输入 ¹⁴ ¹⁵。

NIST AI RMF 强调在 AI 生命周期中持续执行 Govern、Map、Measure、Manage 四类活动；这与 LLM 从数据到部署的闭环治理高度一致 ¹⁶。

5. 阶段二：分词、词表与样本构建

LLM 的 tokenizer 决定了文本如何被映射为离散符号序列，因此它不仅影响压缩率，也影响多语言覆盖、代码表达、特殊符号处理、上下文长度利用率和训练稳定性。BPE 使用频繁子词合并缓解稀有词问题 ¹⁷；SentencePiece 允许从原始句子直接训练子词模型，并支持 BPE 与 Unigram LM 等方案 ¹⁸。

分词路线	核心思想	优点	主要代价	适用场景
BPE	高频字符/子词对迭代合并	成熟、简单、可解释	对预分词和特殊字符规则敏感	英文、代码、通用 LLM
SentencePiece-BPE	在 SentencePiece 框架下训练 BPE	可从原始文本训练，语言无关	需仔细调词表规模与字符覆盖	多语言、混合语料
SentencePiece-Unigram	通过概率模型选择子词切分	对形态丰富语言更灵活	训练与调参更复杂	多语言、噪声语料
大词表 BPE	增大 vocabulary，减少平均 token 数	对多语言和代码更友好	embedding/LM head 参数更大	大规模通用 LLM、长训练

训练样本构建应冻结 train/validation/test 切分，保证验证集不被后续去重或采样策略污染。packing 策略需要避免 padding 浪费，同时应记录跨文档拼接边界，以便需要时做 loss mask、文档边界控制或长上下文评测。

6. 阶段三：模型架构与系统并行

现代 LLM 虽然仍以 Transformer 为主，但并不等于原始 2017 Transformer 的简单堆叠。常见稳定化组件包括 RoPE 位置编码、RMSNorm、SwiGLU、GQA、QK-norm、z-loss、混合精度和 IO-aware attention。RoPE 通过旋转位置编码增强相对位置信息建模 ¹⁹；RMSNorm 以去均值之外的归一化简化计算并保持稳定性 ²⁰；GQA 在多头注意力质量和多查询注意力推理效率之间折中，降低 KV cache 成本 ²¹。

6.1 并行策略比较

并行策略	切分维度	直接收益	主要风险/代价	典型触发条件
DP	batch	简单、吞吐稳定	每卡复制完整模型状态	模型可单卡容纳
FSDP / ZeRO 类分片	参数、梯度、优化器状态	显著降低状态内存	all-gather / reduce-scatter 通信复杂	参数状态放不下但单层可计算
TP	单层内部矩阵	跨卡承载大层	需要高带宽互连	FFN/Attention 层过大
PP	网络深度	切分深网络	pipeline bubble 与调度复杂	层数极多、整网过大
CP	序列长度	支持长上下文训练	序列维通信复杂	8K、32K 或更长上下文
EP	MoE 专家维度	扩展稀疏专家容量	all-to-all、路由负载均衡	使用 MoE

Megatron Core 文档将 DP、TP、PP、CP、EP 作为大模型并行的主要维度，PyTorch FSDP 文档则重点说明参数、梯度和优化器状态分片对内存的影响 ⁸ ⁹。FlashAttention 的关键贡献是减少 GPU HBM 与片上 SRAM 之间的 I/O 开销，同时保持精确 attention 计算，不是近似 attention ⁷。

7. 阶段四：自监督预训练

对自回归 LLM，预训练目标通常是最大化 token 序列似然，即最小化下一 token 的交叉熵：

$$ \mathcal{L}_{\text{LM}}(\theta) = -\frac{1}{T}\sum_{t=1}^{T}\log p_{\theta}(x_t \mid x_{<t}). $$

困惑度定义为：

$$ \mathrm{PPL}=\exp(\mathcal{L}_{\text{LM}}). $$

在 dense decoder-only 模型中，常用粗略训练计算量估计为：

$$ C \approx 6ND, $$

其中 (N) 是参数量，(D) 是训练 token 数。该公式适合做 scaling law 与训练预算的近似比较，不应被理解为逐硬件 kernel 的精确 FLOPs 计数 ²²。

公开配方中有一些高置信度起点，但不应机械照搬：GPT-3 使用 Adam、(\beta_1=0.9)、(\beta_2=0.95)、(\epsilon=10^{-8})、全局梯度裁剪 1.0、cosine decay 和 weight decay 0.1 ¹；PaLM 使用 Adafactor 并引入 z-loss 增强数值稳定性 ²；OLMo 2 将预训练、中期再训练与后训练拆分为更清晰的现代开放配方 ⁴。

8. 阶段五：中期再训练与领域继续预训练

中期再训练（mid-training）或继续预训练（continued pretraining）位于基础预训练和后训练之间。它通常使用更高质量或更目标化的数据混合，例如数学、代码、STEM、长上下文、领域文本、工具轨迹或合成数据。OLMo 2 报告显示，pretrain / mid-train / post-train 的多阶段配方已经成为开放模型训练中可复现、可审计的重要路线 ⁴。

对于领域模型，continued pretraining 与 domain-adaptive pretraining 可以提升域内能力，但也可能带来灾难性遗忘、通用能力下降或安全边界漂移。因此必须搭配：

通用数据回放集；
域内与域外双评测；
安全评测回归；
训练前后生成风格与拒答边界比较；
与 RAG 的成本收益比较。

Gururangan 等人的 “Don’t Stop Pretraining” 系统展示了 domain-adaptive 与 task-adaptive pretraining 在下游任务上的价值 ²³。若主要问题是知识新鲜度而非能力内化，优先考虑 RAG 或外部知识库更新往往更安全、可回滚且成本更低；RETRO 展示了检索增强语言模型在显式外部记忆方面的潜力 ²⁴。

9. 阶段六：监督微调（SFT）

SFT 的目标不是继续“泛泛续写互联网文本”，而是让基础模型学会在给定任务、指令、角色、格式和工具协议下输出符合预期的响应。其损失仍是条件语言建模交叉熵：

$$ \mathcal{L}_{\text{SFT}}(\theta) = -\mathbb{E}_{(x,y)\sim D_{\text{SFT}}} \sum_{t=1}^{|y|}\log \pi_{\theta}(y_t \mid x, y_{<t}). $$

Flan 研究表明，大规模 instruction finetuning 可以显著提升零样本和少样本泛化 ²⁵。Self-Instruct 进一步展示，在人工指令数据不足时，可以通过模型自举生成多样指令数据，但这类数据必须经过过滤、去重和质量控制，否则会放大模型自身偏差 ²⁶。

SFT 数据应覆盖：

单轮指令；
多轮对话；
复杂约束遵循；
工具调用与结构化输出；
拒答与安全边界；
多语言与本地化表达；
领域任务与通用任务的均衡混合。

10. 阶段七：偏好对齐与验证式强化学习

10.1 RLHF

RLHF 通常包括三步：收集偏好比较、训练奖励模型、用 PPO 或类似策略优化方法更新语言模型。奖励模型常用成对偏好损失：

$$ \mathcal{L}_{\text{RM}}(\phi) = -\mathbb{E}_{(x,y_w,y_l)\sim D} \left[ \log \sigma\left(r_\phi(x,y_w)-r_\phi(x,y_l)\right) \right]. $$

其中 (y_w) 是被偏好回答，(y_l) 是较不偏好的回答。InstructGPT 将监督示范、偏好比较、奖励模型和 PPO 连接成经典 RLHF 训练链条，并显示小得多但经过 RLHF 的模型可以在人工偏好上超过未对齐的大基础模型 ¹⁰。PPO 本身是一种约束策略更新幅度的强化学习算法 ²⁷。

10.2 DPO

DPO 将带 KL 约束的奖励最大化问题重写为直接作用于策略的二分类目标，避免显式训练奖励模型和在线 RL 采样。经典 DPO 损失为：

$$ \mathcal{L}_{\text{DPO}}(\theta) = -\log \sigma\!\left( \beta \left[ \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)} \right] \right). $$

DPO 的主要优势是训练流程简单、稳定性较好、实现成本低；其主要风险是高度依赖偏好数据质量和参考模型选择 ¹¹。

10.3 RLAIF、Constitutional AI 与 RLVR

RLAIF 与 Constitutional AI 使用 AI 反馈或规则原则辅助生成偏好信号，适合扩展安全数据，但规则集和评审模型偏差会被系统性放大，因此需要独立红队和人工抽检 ²⁸。RLVR（reinforcement learning with verifiable rewards）适用于数学、代码、工具调用等可自动验证任务；其优势是奖励信号明确，缺点是适用范围受限。OLMo 2 的开放配方展示了 SFT → DPO → RLVR 的多阶段后训练路线 ⁴。

方法	监督信号	是否需要奖励模型	优点	主要风险	适用场景
SFT	高质量示范	否	简单稳定，提升指令遵循	细粒度偏好不足	基础 chat、格式学习
RLHF + PPO	人类偏好比较	是	表达力强，可整合复杂奖励	训练复杂、reward hacking、成本高	高价值对话、安全对齐
DPO	偏好对样本	否	简洁稳定，门槛低	依赖偏好数据与参考模型	通用后训练
RLAIF / CAI	AI 反馈或原则规则	可选	可扩大安全数据规模	规则与评审器偏差会放大	安全一致性训练
RLVR	自动可验证奖励	可选	对数学、代码强	只适合可验证任务	数学、代码、工具调用

11. 阶段八：综合评测与发布门槛

严谨评测不能只报一个总分，至少应覆盖以下维度：

语言建模质量：validation loss、PPL、长度分桶 PPL、不同语种 PPL。
知识与推理：MMLU、CMMLU、BIG-Bench 类任务、事实性评估 ²⁹ ³⁰。
数学能力：GSM8K、MATH、可验证推理轨迹 ³¹。
代码能力：HumanEval、MBPP、单元测试通过率 ³²。
指令遵循与对话偏好：人工评测、pairwise win rate、格式稳定性、工具调用正确率。
校准与不确定性：置信度、拒答质量、过度自信率。
安全与鲁棒性：毒性、偏见、隐私泄露、越狱、红队、提示注入。
多语言与本地化：中文、少数语言、跨文化表达与本地知识。
多模态能力：如果包含视觉输入，应使用 VHELM 或同类多维评测，而不是只看 VQA 单分数 ³³。
效率与成本：tokens/s、首 token 延迟、单位请求成本、显存占用、能耗。

HELM 的价值在于把准确率、校准、鲁棒性、公平性、偏见、毒性和效率并列评估，而不是只优化一个 leaderboard 分数 ¹³。

12. 阶段九：部署、压缩与服务化

训练完成并不等于系统可以上线。部署前通常要进行：

量化：LLM.int8、GPTQ、AWQ 等方法可以显著降低显存和推理成本 ³⁴ ³⁵ ³⁶。
蒸馏：将大模型能力转移到小模型，适合低延迟和边缘场景。
KV cache 优化：包括分页、复用、压缩、batch 调度和 speculative decoding 配合。
服务治理：灰度发布、A/B 测试、回滚机制、请求审计、用户反馈处理。
安全护栏：系统提示、内容过滤器、工具权限控制、速率限制和异常检测。

部署后监控不应只看系统指标，还应监控模型行为：拒答率异常、幻觉率上升、特定领域错误、提示注入成功率、敏感信息泄露、成本漂移和用户反馈分布变化。

13. MoE 与多模态扩展分支

13.1 MoE

MoE 通过稀疏激活少数专家扩大总参数容量，但并不等于“复制多个 FFN”。其核心挑战包括路由稳定性、专家负载均衡、容量因子、all-to-all 通信和专家并行。Sparsely-Gated MoE 与 Switch Transformer 展示了稀疏专家模型的扩展潜力，同时也说明负载均衡损失和路由数值稳定性是必要设计项 ³⁷ ³⁸。

13.2 多模态

多模态 LLM 通常在文本主干之外增加视觉编码器、投影层、跨注意力或视觉指令微调数据。CLIP 使用图文对比学习获得视觉—文本对齐表征 ³⁹；Flamingo 使用视觉编码器、Perceiver resampler 和跨注意力把视觉输入接入语言模型 ⁴⁰；LLaVA 通过视觉指令微调快速构建图文对话能力 ⁴¹。多模态模型评估必须同时关注感知、知识、推理、公平性、安全性和鲁棒性 ³³。

14. 高置信度工程起点

以下表格是基于公开配方整理的工程起点，不是理论最优值。正式训练必须通过 pilot run、ablation、scaling law 拟合和稳定性监控确定。

设计项	建议起点	说明
基础模型	decoder-only Transformer	当前主流通用生成式 LLM 路线
位置编码	RoPE	长上下文和相对位置信息建模常用
归一化	RMSNorm / PreNorm 或现代稳定化变体	减少训练不稳定风险
Attention	GQA + FlashAttention	降低推理 KV cache 与训练 I/O 开销
优化器	AdamW / Adam / Adafactor	GPT-3 用 Adam，PaLM 用 Adafactor
(\beta_1)	0.9	多个公开配方常见值
(\beta_2)	0.95 起步	大模型常见；具体需 sweep
(\epsilon)	1e-8 起步	需结合优化器和精度策略
梯度裁剪	global norm 1.0	GPT-3、PaLM 等公开配方常见
学习率调度	warmup + cosine decay	大规模预训练常见稳定选择
数据去重	文档级 + 片段级 + 近似去重	同时影响性能、隐私与评测可信度
SFT	高质量、多任务、多轮、含拒答边界	数据质量通常比数据量更关键
偏好对齐	DPO 作为低复杂度起点；高价值场景考虑 RLHF	取决于偏好数据、奖励复杂度和预算
评测	HELM 风格多维评测 + 本地化 benchmark	不应只看单一 leaderboard

15. 最小可审计清单

训练发布前至少应能回答以下问题：

数据是否有来源、许可证、版本和 hash 清单？
是否做了 PII、密钥、敏感内容和未授权数据处理？
是否做了去重和 benchmark contamination 检查？
tokenizer 是否经过多语言、代码、特殊字符和长文本验证？
是否有训练稳定性监控、checkpoint 恢复演练和异常回滚策略？
是否记录了模型架构、超参数、训练 token 数、数据混合权重和随机种子？
是否完成基础能力、后训练能力、安全、偏见、隐私、鲁棒性和效率评测？
是否有发布门槛、灰度策略、监控指标和下线/回滚机制？
如果部署后继续学习，是否区分了 RAG 知识更新和参数更新？
是否保留了可复现实验记录、评测脚本和模型卡？

16. 参考文献

Brown, T. B. et al. (2020). Language Models are Few-Shot Learners. NeurIPS. arXiv:2005.14165. https://arxiv.org/abs/2005.14165 ↩
Chowdhery, A. et al. (2022). PaLM: Scaling Language Modeling with Pathways. arXiv:2204.02311. https://arxiv.org/abs/2204.02311 ↩
Touvron, H. et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv:2307.09288. https://arxiv.org/abs/2307.09288 ↩
Team OLMo et al. (2025). 2 OLMo 2 Furious. arXiv:2501.00656. https://arxiv.org/abs/2501.00656 ↩
Lee, K. et al. (2021). Deduplicating Training Data Makes Language Models Better. arXiv:2107.06499. https://arxiv.org/abs/2107.06499 ↩
Kandpal, N. et al. (2022). Deduplicating Training Data Mitigates Privacy Risks in Language Models. arXiv:2202.06539. https://arxiv.org/abs/2202.06539 ↩
Dao, T. et al. (2022). FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness. arXiv:2205.14135. https://arxiv.org/abs/2205.14135 ↩
NVIDIA. Megatron Core Parallelism Guide. Documentation. https://docs.nvidia.com/megatron-core/developer-guide/0.16.0/user-guide/parallelism-guide.html ↩
PyTorch. Fully Sharded Data Parallel Tutorial. Documentation. https://docs.pytorch.org/tutorials/intermediate/FSDP_tutorial.html ↩
Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. arXiv:2203.02155. https://arxiv.org/abs/2203.02155 ↩
Rafailov, R. et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. arXiv:2305.18290. https://arxiv.org/abs/2305.18290 ↩
Stiennon, N. et al. (2020). Learning to Summarize from Human Feedback. arXiv:2009.01325. https://arxiv.org/abs/2009.01325 ↩
Liang, P. et al. (2022). Holistic Evaluation of Language Models. arXiv:2211.09110. https://arxiv.org/abs/2211.09110 ↩
Gebru, T. et al. (2018). Datasheets for Datasets. arXiv:1803.09010. https://arxiv.org/abs/1803.09010 ↩
Mitchell, M. et al. (2019). Model Cards for Model Reporting. arXiv:1810.03993. https://arxiv.org/abs/1810.03993 ↩
NIST. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). NIST AI 100-1. https://nvlpubs.nist.gov/nistpubs/ai/nist.ai.100-1.pdf ↩
Sennrich, R., Haddow, B., and Birch, A. (2016). Neural Machine Translation of Rare Words with Subword Units. ACL Anthology. https://aclanthology.org/P16-1162/ ↩
Kudo, T., and Richardson, J. (2018). SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing. arXiv:1808.06226. https://arxiv.org/abs/1808.06226 ↩
Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864. https://arxiv.org/abs/2104.09864 ↩
Zhang, B., and Sennrich, R. (2019). Root Mean Square Layer Normalization. arXiv:1910.07467. https://arxiv.org/abs/1910.07467 ↩
Ainslie, J. et al. (2023). GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints. arXiv:2305.13245. https://arxiv.org/abs/2305.13245 ↩
Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361. https://arxiv.org/abs/2001.08361 ↩
Gururangan, S. et al. (2020). Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks. arXiv:2004.10964. https://arxiv.org/abs/2004.10964 ↩
Borgeaud, S. et al. (2021). Improving language models by retrieving from trillions of tokens. arXiv:2112.04426. https://arxiv.org/abs/2112.04426 ↩
Wei, J. et al. (2021). Finetuned Language Models Are Zero-Shot Learners. arXiv:2109.01652. https://arxiv.org/abs/2109.01652 ↩
Wang, Y. et al. (2022). Self-Instruct: Aligning Language Models with Self-Generated Instructions. arXiv:2212.10560. https://arxiv.org/abs/2212.10560 ↩
Schulman, J. et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347. https://arxiv.org/abs/1707.06347 ↩
Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073. https://arxiv.org/abs/2212.08073 ↩
Hendrycks, D. et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300. https://arxiv.org/abs/2009.03300 ↩
Li, H. et al. (2023). CMMLU: Measuring massive multitask language understanding in Chinese. arXiv:2306.09212. https://arxiv.org/abs/2306.09212 ↩
Cobbe, K. et al. (2021). Training Verifiers to Solve Math Word Problems. arXiv:2110.14168. https://arxiv.org/abs/2110.14168 ↩
Chen, M. et al. (2021). Evaluating Large Language Models Trained on Code. arXiv:2107.03374. https://arxiv.org/abs/2107.03374 ↩
Lee, T. et al. (2024). VHELM: A Holistic Evaluation of Vision Language Models. arXiv:2410.07112. https://arxiv.org/abs/2410.07112 ↩
Dettmers, T. et al. (2022). LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale. arXiv:2208.07339. https://arxiv.org/abs/2208.07339 ↩
Frantar, E. et al. (2022). GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers. arXiv:2210.17323. https://arxiv.org/abs/2210.17323 ↩
Lin, J. et al. (2023). AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration. arXiv:2306.00978. https://arxiv.org/abs/2306.00978 ↩
Shazeer, N. et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. arXiv:1701.06538. https://arxiv.org/abs/1701.06538 ↩
Fedus, W., Zoph, B., and Shazeer, N. (2022). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. JMLR. https://jmlr.org/papers/v23/21-0998.html ↩
Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. https://arxiv.org/abs/2103.00020 ↩
Alayrac, J.-B. et al. (2022). Flamingo: a Visual Language Model for Few-Shot Learning. arXiv:2204.14198. https://arxiv.org/abs/2204.14198 ↩
Liu, H. et al. (2023). Visual Instruction Tuning. arXiv:2304.08485. https://arxiv.org/abs/2304.08485 ↩