标签 "pre_train" 下的文章

共找到 1 篇文章
Large language Model

大型预训练语言模型一体化训练流程

· Large language Model · 58 分钟阅读
0. 术语与适用范围本文将“大预言模型”按当前学术和工业语境解释为“大型预训练语言模型”(large pretrained language model / large language model)。流程主线覆盖从数据治理、分词、模型架构、分布式预训练,到中期再训练、监督微调、偏好对齐、评估、部署和持续迭代的闭环。默认模型类别为 GPT-3、PaLM、Llama、OLMo/OLMo 2 等公开文...