Large language Model
大型预训练语言模型一体化训练流程
0. 术语与适用范围本文将“大预言模型”按当前学术和工业语境解释为“大型预训练语言模型”(large pretrained language model / large language model)。流程主线覆盖从数据治理、分词、模型架构、分布式预训练,到中期再训练、监督微调、偏好对齐、评估、部署和持续迭代的闭环。默认模型类别为 GPT-3、PaLM、Llama、OLMo/OLMo 2 等公开文...