大型预训练语言模型一体化训练流程

0. 术语与适用范围

本文将“大预言模型”按当前学术和工业语境解释为“大型预训练语言模型”(large pretrained language model / large language model)。流程主线覆盖从数据治理、分词、模型架构、分布式预训练,到中期再训练、监督微调、偏好对齐、评估、部署和持续迭代的闭环。默认模型类别为 GPT-3、PaLM、Llama、OLMo/OLMo 2 等公开文献中常见的 自回归 decoder-only Transformer 1 2 3 4

需要明确的是,本文流程不把 LLM 训练简化为“抓数据—预训练—SFT—RLHF”四步,而是将其视为一个由数据治理、表示系统、学习算法、评测运营共同耦合的工程化科研系统。若目标模型不是语言模型,而是通用预测模型、扩散生成模型、纯视觉模型或语音模型,则数据形态、损失函数、评估体系与部署约束都需要重新定义。


1. 执行摘要

一个学术上严谨的 LLM 一体化训练流程至少包含四层:

  1. 数据与治理层:负责数据来源合法性、隐私与敏感信息处理、质量过滤、去重、数据污染控制、语料配比和文档化。GPT-3 的训练报告已经把 Common Crawl 质量过滤、模糊去重和 benchmark contamination 检查作为预训练流程的一部分 1。后续工作进一步说明,训练数据去重可以降低训练文本复现与隐私泄露风险 5 6
  2. 表示与系统层:负责 tokenizer、模型结构、位置编码、归一化、混合精度、attention kernel、并行策略、I/O 管线和 checkpoint 可靠性。PaLM、FlashAttention、Megatron 与 FSDP 文档共同表明,大模型训练是否可行,常常取决于 IO-aware attention、低精度数值策略、状态分片、张量并行、流水线并行和上下文并行的组合,而不仅是 GPU 数量 2 7 8 9
  3. 学习层:负责自监督预训练、中期再训练、监督微调和偏好对齐。SFT 主要让模型学会遵循指令格式;RLHF、DPO 或 RLVR 等偏好/验证式训练进一步优化“多个可行答案中哪个更符合人类偏好、安全约束或可验证目标” 10 11 12 4
  4. 评测与运营层:负责离线 benchmark、安全红队、数据污染审计、校准与鲁棒性评估、服务化部署、在线监控和持续学习。HELM 的核心价值在于把准确率、校准、鲁棒性、公平性、偏见、毒性和效率放在同一框架下评估 13

2. 一体化训练总流程图

flowchart TD
    A0[需求定义与风险画像<br/>目标场景、能力边界、安全边界、合规边界] --> A1[数据获取计划<br/>Web、书籍、代码、论文、领域数据、合成数据]

    subgraph G[数据治理与语料构建]
        A1 --> G1[来源审计与许可证治理]
        G1 --> G2[隐私、PII 与敏感信息处理]
        G2 --> G3[语言识别、格式解析与文本规范化]
        G3 --> G4[质量过滤<br/>规则、分类器、困惑度、小模型评分]
        G4 --> G5[精确/近似去重<br/>Hash、MinHash、LSH、embedding 相似度]
        G5 --> G6[Benchmark 去污染与隔离]
        G6 --> G7[数据卡与版本化<br/>datasheet、manifest、hash、provenance]
        G7 --> G8[语料分桶、采样权重与混合配比]
    end

    subgraph T[表示层:分词与训练样本构建]
        G8 --> T1[Tokenizer 训练与验证<br/>BPE / SentencePiece-BPE / Unigram]
        T1 --> T2[词表、特殊 token 与模板协议]
        T2 --> T3[编码、packing、shuffle、data loader 验证]
        T3 --> T4[训练/验证/测试切分冻结]
    end

    subgraph M[模型与系统设计]
        T4 --> M1[基础架构选择]
        M1 --> M2[Dense decoder-only Transformer]
        M1 --> M3[可选:MoE 路由与专家层]
        M1 --> M4[可选:多模态桥接<br/>视觉编码器、投影层、跨注意力]
        M2 --> S0[数值与并行策略]
        M3 --> S0
        M4 --> S0
        S0 --> S1[混合精度<br/>FP16 / BF16 / FP8]
        S0 --> S2[FlashAttention / checkpoint recomputation]
        S0 --> S3[DP / FSDP]
        S0 --> S4[TP / PP]
        S0 --> S5[CP:长上下文]
        S0 --> S6[EP:MoE 专家并行]
    end

    subgraph P[基础模型学习]
        S1 --> P1[自监督预训练<br/>Next-token prediction]
        S2 --> P1
        S3 --> P1
        S4 --> P1
        S5 --> P1
        S6 --> P1
        P1 --> P2[训练稳定性监控<br/>loss、gradient norm、activation、NaN、吞吐]
        P2 --> P3[Checkpoint、恢复演练与中间评估]
        P3 --> P4[基础模型评估<br/>PPL、MMLU、GSM8K、HumanEval、多语种]
        P4 --> P5{是否需要中期再训练}
        P5 -->|是| P6[Mid-training / Continued pretraining<br/>高质量域数据、数学、代码、长上下文、合成数据]
        P6 --> P7[退火、模型 soup、通用回放与回归评估]
        P5 -->|否| F1[进入后训练]
        P7 --> F1
    end

    subgraph F[后训练与对齐]
        F1 --> F2[SFT 数据构建<br/>指令、对话、工具调用、格式约束]
        F2 --> F3[监督微调 SFT<br/>条件语言建模目标]
        F3 --> F4[指令遵循、格式稳定性与拒答边界评估]
        F4 --> F5{偏好/验证式对齐路径}
        F5 -->|RLHF| F6[偏好比较数据]
        F6 --> F7[奖励模型 RM]
        F7 --> F8[PPO 或其他 KL 约束策略优化]
        F5 -->|DPO| F9[偏好对样本]
        F9 --> F10[DPO 直接偏好优化]
        F5 -->|可验证任务| F11[RLVR / verifier-based RL]
        F8 --> F12[对齐模型]
        F10 --> F12
        F11 --> F12
    end

    subgraph E[评测、发布与治理]
        F12 --> E1[离线综合评测<br/>知识、推理、数学、代码、多语种、多模态]
        E1 --> E2[安全评测<br/>毒性、偏见、越狱、隐私、幻觉、拒答]
        E2 --> E3[数据污染与记忆复现审计]
        E3 --> E4[效率评测<br/>吞吐、延迟、显存、成本、能耗]
        E4 --> E5{是否达到发布门槛}
        E5 -->|否| E6[问题定位与回流<br/>数据、架构、预训练、SFT、对齐]
        E5 -->|是| D1[压缩、服务化与部署]
    end

    subgraph O[部署与持续迭代]
        D1 --> O1[量化、蒸馏、KV cache 与 serving 调度]
        O1 --> O2[灰度发布、监控与审计日志]
        O2 --> O3[在线质量、漂移、安全、成本监控]
        O3 --> O4{是否触发更新}
        O4 -->|知识新鲜度| O5[RAG / 外部知识库更新]
        O4 -->|能力或偏好退化| O6[增量 SFT / DPO / 继续预训练]
        O5 --> E1
        O6 --> E1
    end

    E6 --> G4
    E6 --> P1
    E6 --> F2

3. 成本与决策重心流程图

flowchart LR
    C1[数据治理与 tokenizer<br/>低于预训练 FLOPs,但决定上限与风险] -->
    C2[自监督预训练<br/>通常占训练计算量绝大部分] -->
    C3[中期再训练<br/>小比例 FLOPs,高杠杆质量补强] -->
    C4[SFT<br/>改变交互格式与指令遵循] -->
    C5[偏好对齐<br/>token 量小,但强影响帮助性与安全性] -->
    C6[评测与部署<br/>长期运营成本与风险中心]

公开技术报告显示,预训练通常占总训练 FLOPs 的绝大部分;OLMo 2 明确把中期再训练作为 pretrain 与 post-train 之间的高杠杆阶段,用更小但更高质量的计算预算补强数学、代码、STEM、长上下文和高质量指令混合数据 4


4. 阶段一:需求定义、风险画像与数据治理

数据治理不是预处理脚本的附属品,而是训练系统的第一性约束。一个严谨流程至少应包含以下对象:

  • 来源审计:记录数据来源、采集时间、许可证、使用限制、爬取规则、授权边界和移除请求机制。
  • 隐私与敏感信息处理:识别并过滤 PII、密钥、证件号、医疗/金融敏感字段、未成年人敏感信息等。
  • 质量过滤:结合规则、语言识别器、去噪模型、困惑度过滤、小模型质量评分和人工抽检。
  • 去重:同时做文档级精确去重、近似去重、片段级去重和跨集合泄漏检查。去重不仅影响训练效率,还影响模型记忆、隐私风险和评测可信度 5 6
  • Benchmark 去污染:将评测集及其变体从训练数据中隔离。GPT-3 使用 n-gram 匹配方式检查评测污染,这是公开训练报告中较早系统描述该问题的案例之一 1
  • 文档化:以 datasheet、model card、数据版本 manifest、hash 清单和数据 lineage 管理训练输入 14 15

NIST AI RMF 强调在 AI 生命周期中持续执行 Govern、Map、Measure、Manage 四类活动;这与 LLM 从数据到部署的闭环治理高度一致 16


5. 阶段二:分词、词表与样本构建

LLM 的 tokenizer 决定了文本如何被映射为离散符号序列,因此它不仅影响压缩率,也影响多语言覆盖、代码表达、特殊符号处理、上下文长度利用率和训练稳定性。BPE 使用频繁子词合并缓解稀有词问题 17;SentencePiece 允许从原始句子直接训练子词模型,并支持 BPE 与 Unigram LM 等方案 18

分词路线核心思想优点主要代价适用场景
BPE高频字符/子词对迭代合并成熟、简单、可解释对预分词和特殊字符规则敏感英文、代码、通用 LLM
SentencePiece-BPE在 SentencePiece 框架下训练 BPE可从原始文本训练,语言无关需仔细调词表规模与字符覆盖多语言、混合语料
SentencePiece-Unigram通过概率模型选择子词切分对形态丰富语言更灵活训练与调参更复杂多语言、噪声语料
大词表 BPE增大 vocabulary,减少平均 token 数对多语言和代码更友好embedding/LM head 参数更大大规模通用 LLM、长训练

训练样本构建应冻结 train/validation/test 切分,保证验证集不被后续去重或采样策略污染。packing 策略需要避免 padding 浪费,同时应记录跨文档拼接边界,以便需要时做 loss mask、文档边界控制或长上下文评测。


6. 阶段三:模型架构与系统并行

现代 LLM 虽然仍以 Transformer 为主,但并不等于原始 2017 Transformer 的简单堆叠。常见稳定化组件包括 RoPE 位置编码、RMSNorm、SwiGLU、GQA、QK-norm、z-loss、混合精度和 IO-aware attention。RoPE 通过旋转位置编码增强相对位置信息建模 19;RMSNorm 以去均值之外的归一化简化计算并保持稳定性 20;GQA 在多头注意力质量和多查询注意力推理效率之间折中,降低 KV cache 成本 21

6.1 并行策略比较

并行策略切分维度直接收益主要风险/代价典型触发条件
DPbatch简单、吞吐稳定每卡复制完整模型状态模型可单卡容纳
FSDP / ZeRO 类分片参数、梯度、优化器状态显著降低状态内存all-gather / reduce-scatter 通信复杂参数状态放不下但单层可计算
TP单层内部矩阵跨卡承载大层需要高带宽互连FFN/Attention 层过大
PP网络深度切分深网络pipeline bubble 与调度复杂层数极多、整网过大
CP序列长度支持长上下文训练序列维通信复杂8K、32K 或更长上下文
EPMoE 专家维度扩展稀疏专家容量all-to-all、路由负载均衡使用 MoE

Megatron Core 文档将 DP、TP、PP、CP、EP 作为大模型并行的主要维度,PyTorch FSDP 文档则重点说明参数、梯度和优化器状态分片对内存的影响 8 9。FlashAttention 的关键贡献是减少 GPU HBM 与片上 SRAM 之间的 I/O 开销,同时保持精确 attention 计算,不是近似 attention 7


7. 阶段四:自监督预训练

对自回归 LLM,预训练目标通常是最大化 token 序列似然,即最小化下一 token 的交叉熵:

$$ \mathcal{L}_{\text{LM}}(\theta) = -\frac{1}{T}\sum_{t=1}^{T}\log p_{\theta}(x_t \mid x_{<t}). $$

困惑度定义为:

$$ \mathrm{PPL}=\exp(\mathcal{L}_{\text{LM}}). $$

在 dense decoder-only 模型中,常用粗略训练计算量估计为:

$$ C \approx 6ND, $$

其中 (N) 是参数量,(D) 是训练 token 数。该公式适合做 scaling law 与训练预算的近似比较,不应被理解为逐硬件 kernel 的精确 FLOPs 计数 22

公开配方中有一些高置信度起点,但不应机械照搬:GPT-3 使用 Adam、(\beta_1=0.9)、(\beta_2=0.95)、(\epsilon=10^{-8})、全局梯度裁剪 1.0、cosine decay 和 weight decay 0.1 1;PaLM 使用 Adafactor 并引入 z-loss 增强数值稳定性 2;OLMo 2 将预训练、中期再训练与后训练拆分为更清晰的现代开放配方 4


8. 阶段五:中期再训练与领域继续预训练

中期再训练(mid-training)或继续预训练(continued pretraining)位于基础预训练和后训练之间。它通常使用更高质量或更目标化的数据混合,例如数学、代码、STEM、长上下文、领域文本、工具轨迹或合成数据。OLMo 2 报告显示,pretrain / mid-train / post-train 的多阶段配方已经成为开放模型训练中可复现、可审计的重要路线 4

对于领域模型,continued pretraining 与 domain-adaptive pretraining 可以提升域内能力,但也可能带来灾难性遗忘、通用能力下降或安全边界漂移。因此必须搭配:

  • 通用数据回放集;
  • 域内与域外双评测;
  • 安全评测回归;
  • 训练前后生成风格与拒答边界比较;
  • 与 RAG 的成本收益比较。

Gururangan 等人的 “Don’t Stop Pretraining” 系统展示了 domain-adaptive 与 task-adaptive pretraining 在下游任务上的价值 23。若主要问题是知识新鲜度而非能力内化,优先考虑 RAG 或外部知识库更新往往更安全、可回滚且成本更低;RETRO 展示了检索增强语言模型在显式外部记忆方面的潜力 24


9. 阶段六:监督微调(SFT)

SFT 的目标不是继续“泛泛续写互联网文本”,而是让基础模型学会在给定任务、指令、角色、格式和工具协议下输出符合预期的响应。其损失仍是条件语言建模交叉熵:

$$ \mathcal{L}_{\text{SFT}}(\theta) = -\mathbb{E}_{(x,y)\sim D_{\text{SFT}}} \sum_{t=1}^{|y|}\log \pi_{\theta}(y_t \mid x, y_{<t}). $$

Flan 研究表明,大规模 instruction finetuning 可以显著提升零样本和少样本泛化 25。Self-Instruct 进一步展示,在人工指令数据不足时,可以通过模型自举生成多样指令数据,但这类数据必须经过过滤、去重和质量控制,否则会放大模型自身偏差 26

SFT 数据应覆盖:

  • 单轮指令;
  • 多轮对话;
  • 复杂约束遵循;
  • 工具调用与结构化输出;
  • 拒答与安全边界;
  • 多语言与本地化表达;
  • 领域任务与通用任务的均衡混合。

10. 阶段七:偏好对齐与验证式强化学习

10.1 RLHF

RLHF 通常包括三步:收集偏好比较、训练奖励模型、用 PPO 或类似策略优化方法更新语言模型。奖励模型常用成对偏好损失:

$$ \mathcal{L}_{\text{RM}}(\phi) = -\mathbb{E}_{(x,y_w,y_l)\sim D} \left[ \log \sigma\left(r_\phi(x,y_w)-r_\phi(x,y_l)\right) \right]. $$

其中 (y_w) 是被偏好回答,(y_l) 是较不偏好的回答。InstructGPT 将监督示范、偏好比较、奖励模型和 PPO 连接成经典 RLHF 训练链条,并显示小得多但经过 RLHF 的模型可以在人工偏好上超过未对齐的大基础模型 10。PPO 本身是一种约束策略更新幅度的强化学习算法 27

10.2 DPO

DPO 将带 KL 约束的奖励最大化问题重写为直接作用于策略的二分类目标,避免显式训练奖励模型和在线 RL 采样。经典 DPO 损失为:

$$ \mathcal{L}_{\text{DPO}}(\theta) = -\log \sigma\!\left( \beta \left[ \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)} \right] \right). $$

DPO 的主要优势是训练流程简单、稳定性较好、实现成本低;其主要风险是高度依赖偏好数据质量和参考模型选择 11

10.3 RLAIF、Constitutional AI 与 RLVR

RLAIF 与 Constitutional AI 使用 AI 反馈或规则原则辅助生成偏好信号,适合扩展安全数据,但规则集和评审模型偏差会被系统性放大,因此需要独立红队和人工抽检 28。RLVR(reinforcement learning with verifiable rewards)适用于数学、代码、工具调用等可自动验证任务;其优势是奖励信号明确,缺点是适用范围受限。OLMo 2 的开放配方展示了 SFT → DPO → RLVR 的多阶段后训练路线 4

方法监督信号是否需要奖励模型优点主要风险适用场景
SFT高质量示范简单稳定,提升指令遵循细粒度偏好不足基础 chat、格式学习
RLHF + PPO人类偏好比较表达力强,可整合复杂奖励训练复杂、reward hacking、成本高高价值对话、安全对齐
DPO偏好对样本简洁稳定,门槛低依赖偏好数据与参考模型通用后训练
RLAIF / CAIAI 反馈或原则规则可选可扩大安全数据规模规则与评审器偏差会放大安全一致性训练
RLVR自动可验证奖励可选对数学、代码强只适合可验证任务数学、代码、工具调用

11. 阶段八:综合评测与发布门槛

严谨评测不能只报一个总分,至少应覆盖以下维度:

  1. 语言建模质量:validation loss、PPL、长度分桶 PPL、不同语种 PPL。
  2. 知识与推理:MMLU、CMMLU、BIG-Bench 类任务、事实性评估 29 30
  3. 数学能力:GSM8K、MATH、可验证推理轨迹 31
  4. 代码能力:HumanEval、MBPP、单元测试通过率 32
  5. 指令遵循与对话偏好:人工评测、pairwise win rate、格式稳定性、工具调用正确率。
  6. 校准与不确定性:置信度、拒答质量、过度自信率。
  7. 安全与鲁棒性:毒性、偏见、隐私泄露、越狱、红队、提示注入。
  8. 多语言与本地化:中文、少数语言、跨文化表达与本地知识。
  9. 多模态能力:如果包含视觉输入,应使用 VHELM 或同类多维评测,而不是只看 VQA 单分数 33
  10. 效率与成本:tokens/s、首 token 延迟、单位请求成本、显存占用、能耗。

HELM 的价值在于把准确率、校准、鲁棒性、公平性、偏见、毒性和效率并列评估,而不是只优化一个 leaderboard 分数 13


12. 阶段九:部署、压缩与服务化

训练完成并不等于系统可以上线。部署前通常要进行:

  • 量化:LLM.int8、GPTQ、AWQ 等方法可以显著降低显存和推理成本 34 35 36
  • 蒸馏:将大模型能力转移到小模型,适合低延迟和边缘场景。
  • KV cache 优化:包括分页、复用、压缩、batch 调度和 speculative decoding 配合。
  • 服务治理:灰度发布、A/B 测试、回滚机制、请求审计、用户反馈处理。
  • 安全护栏:系统提示、内容过滤器、工具权限控制、速率限制和异常检测。

部署后监控不应只看系统指标,还应监控模型行为:拒答率异常、幻觉率上升、特定领域错误、提示注入成功率、敏感信息泄露、成本漂移和用户反馈分布变化。


13. MoE 与多模态扩展分支

13.1 MoE

MoE 通过稀疏激活少数专家扩大总参数容量,但并不等于“复制多个 FFN”。其核心挑战包括路由稳定性、专家负载均衡、容量因子、all-to-all 通信和专家并行。Sparsely-Gated MoE 与 Switch Transformer 展示了稀疏专家模型的扩展潜力,同时也说明负载均衡损失和路由数值稳定性是必要设计项 37 38

13.2 多模态

多模态 LLM 通常在文本主干之外增加视觉编码器、投影层、跨注意力或视觉指令微调数据。CLIP 使用图文对比学习获得视觉—文本对齐表征 39;Flamingo 使用视觉编码器、Perceiver resampler 和跨注意力把视觉输入接入语言模型 40;LLaVA 通过视觉指令微调快速构建图文对话能力 41。多模态模型评估必须同时关注感知、知识、推理、公平性、安全性和鲁棒性 33


14. 高置信度工程起点

以下表格是基于公开配方整理的工程起点,不是理论最优值。正式训练必须通过 pilot run、ablation、scaling law 拟合和稳定性监控确定。

设计项建议起点说明
基础模型decoder-only Transformer当前主流通用生成式 LLM 路线
位置编码RoPE长上下文和相对位置信息建模常用
归一化RMSNorm / PreNorm 或现代稳定化变体减少训练不稳定风险
AttentionGQA + FlashAttention降低推理 KV cache 与训练 I/O 开销
优化器AdamW / Adam / AdafactorGPT-3 用 Adam,PaLM 用 Adafactor
(\beta_1)0.9多个公开配方常见值
(\beta_2)0.95 起步大模型常见;具体需 sweep
(\epsilon)1e-8 起步需结合优化器和精度策略
梯度裁剪global norm 1.0GPT-3、PaLM 等公开配方常见
学习率调度warmup + cosine decay大规模预训练常见稳定选择
数据去重文档级 + 片段级 + 近似去重同时影响性能、隐私与评测可信度
SFT高质量、多任务、多轮、含拒答边界数据质量通常比数据量更关键
偏好对齐DPO 作为低复杂度起点;高价值场景考虑 RLHF取决于偏好数据、奖励复杂度和预算
评测HELM 风格多维评测 + 本地化 benchmark不应只看单一 leaderboard

15. 最小可审计清单

训练发布前至少应能回答以下问题:

  • 数据是否有来源、许可证、版本和 hash 清单?
  • 是否做了 PII、密钥、敏感内容和未授权数据处理?
  • 是否做了去重和 benchmark contamination 检查?
  • tokenizer 是否经过多语言、代码、特殊字符和长文本验证?
  • 是否有训练稳定性监控、checkpoint 恢复演练和异常回滚策略?
  • 是否记录了模型架构、超参数、训练 token 数、数据混合权重和随机种子?
  • 是否完成基础能力、后训练能力、安全、偏见、隐私、鲁棒性和效率评测?
  • 是否有发布门槛、灰度策略、监控指标和下线/回滚机制?
  • 如果部署后继续学习,是否区分了 RAG 知识更新和参数更新?
  • 是否保留了可复现实验记录、评测脚本和模型卡?

16. 参考文献


  1. Brown, T. B. et al. (2020). Language Models are Few-Shot Learners. NeurIPS. arXiv:2005.14165. https://arxiv.org/abs/2005.14165
  2. Chowdhery, A. et al. (2022). PaLM: Scaling Language Modeling with Pathways. arXiv:2204.02311. https://arxiv.org/abs/2204.02311
  3. Touvron, H. et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv:2307.09288. https://arxiv.org/abs/2307.09288
  4. Team OLMo et al. (2025). 2 OLMo 2 Furious. arXiv:2501.00656. https://arxiv.org/abs/2501.00656
  5. Lee, K. et al. (2021). Deduplicating Training Data Makes Language Models Better. arXiv:2107.06499. https://arxiv.org/abs/2107.06499
  6. Kandpal, N. et al. (2022). Deduplicating Training Data Mitigates Privacy Risks in Language Models. arXiv:2202.06539. https://arxiv.org/abs/2202.06539
  7. Dao, T. et al. (2022). FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness. arXiv:2205.14135. https://arxiv.org/abs/2205.14135
  8. NVIDIA. Megatron Core Parallelism Guide. Documentation. https://docs.nvidia.com/megatron-core/developer-guide/0.16.0/user-guide/parallelism-guide.html
  9. PyTorch. Fully Sharded Data Parallel Tutorial. Documentation. https://docs.pytorch.org/tutorials/intermediate/FSDP_tutorial.html
  10. Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. arXiv:2203.02155. https://arxiv.org/abs/2203.02155
  11. Rafailov, R. et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. arXiv:2305.18290. https://arxiv.org/abs/2305.18290
  12. Stiennon, N. et al. (2020). Learning to Summarize from Human Feedback. arXiv:2009.01325. https://arxiv.org/abs/2009.01325
  13. Liang, P. et al. (2022). Holistic Evaluation of Language Models. arXiv:2211.09110. https://arxiv.org/abs/2211.09110
  14. Gebru, T. et al. (2018). Datasheets for Datasets. arXiv:1803.09010. https://arxiv.org/abs/1803.09010
  15. Mitchell, M. et al. (2019). Model Cards for Model Reporting. arXiv:1810.03993. https://arxiv.org/abs/1810.03993
  16. NIST. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). NIST AI 100-1. https://nvlpubs.nist.gov/nistpubs/ai/nist.ai.100-1.pdf
  17. Sennrich, R., Haddow, B., and Birch, A. (2016). Neural Machine Translation of Rare Words with Subword Units. ACL Anthology. https://aclanthology.org/P16-1162/
  18. Kudo, T., and Richardson, J. (2018). SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing. arXiv:1808.06226. https://arxiv.org/abs/1808.06226
  19. Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864. https://arxiv.org/abs/2104.09864
  20. Zhang, B., and Sennrich, R. (2019). Root Mean Square Layer Normalization. arXiv:1910.07467. https://arxiv.org/abs/1910.07467
  21. Ainslie, J. et al. (2023). GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints. arXiv:2305.13245. https://arxiv.org/abs/2305.13245
  22. Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361. https://arxiv.org/abs/2001.08361
  23. Gururangan, S. et al. (2020). Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks. arXiv:2004.10964. https://arxiv.org/abs/2004.10964
  24. Borgeaud, S. et al. (2021). Improving language models by retrieving from trillions of tokens. arXiv:2112.04426. https://arxiv.org/abs/2112.04426
  25. Wei, J. et al. (2021). Finetuned Language Models Are Zero-Shot Learners. arXiv:2109.01652. https://arxiv.org/abs/2109.01652
  26. Wang, Y. et al. (2022). Self-Instruct: Aligning Language Models with Self-Generated Instructions. arXiv:2212.10560. https://arxiv.org/abs/2212.10560
  27. Schulman, J. et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347. https://arxiv.org/abs/1707.06347
  28. Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073. https://arxiv.org/abs/2212.08073
  29. Hendrycks, D. et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300. https://arxiv.org/abs/2009.03300
  30. Li, H. et al. (2023). CMMLU: Measuring massive multitask language understanding in Chinese. arXiv:2306.09212. https://arxiv.org/abs/2306.09212
  31. Cobbe, K. et al. (2021). Training Verifiers to Solve Math Word Problems. arXiv:2110.14168. https://arxiv.org/abs/2110.14168
  32. Chen, M. et al. (2021). Evaluating Large Language Models Trained on Code. arXiv:2107.03374. https://arxiv.org/abs/2107.03374
  33. Lee, T. et al. (2024). VHELM: A Holistic Evaluation of Vision Language Models. arXiv:2410.07112. https://arxiv.org/abs/2410.07112
  34. Dettmers, T. et al. (2022). LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale. arXiv:2208.07339. https://arxiv.org/abs/2208.07339
  35. Frantar, E. et al. (2022). GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers. arXiv:2210.17323. https://arxiv.org/abs/2210.17323
  36. Lin, J. et al. (2023). AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration. arXiv:2306.00978. https://arxiv.org/abs/2306.00978
  37. Shazeer, N. et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. arXiv:1701.06538. https://arxiv.org/abs/1701.06538
  38. Fedus, W., Zoph, B., and Shazeer, N. (2022). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. JMLR. https://jmlr.org/papers/v23/21-0998.html
  39. Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. https://arxiv.org/abs/2103.00020
  40. Alayrac, J.-B. et al. (2022). Flamingo: a Visual Language Model for Few-Shot Learning. arXiv:2204.14198. https://arxiv.org/abs/2204.14198
  41. Liu, H. et al. (2023). Visual Instruction Tuning. arXiv:2304.08485. https://arxiv.org/abs/2304.08485

添加新评论