中文大模型评测基准

2025年10月01日

paper

约 9 分钟阅读

阅读量:15次

LLM

一、通识/考试类（中文知识广度 & 推理）

C-Eval：52学科、四个难度层级（初/高中、本科、职业）；附带更难的 C-Eval Hard。指标：准确率。适合做中文“通才水平线”。 (arXiv)
CMMLU：中文版“多任务通识”，覆盖自然/社科/工程/人文；对多种中文/多语模型做了系统评测。指标：准确率。 (arXiv)
M3KE：2万+题、71任务，覆盖中国教育体系多层级；选择题统一评测。适合补充更细学科面。 (arXiv)
AGIEval（含高考/国考/律师/LSAT/SAT等）：贴近“真人考试”的中文&英文题型，测“类人能力”。报告多任务成绩。 (GitHub)
谢知（Xiezhi）：持续更新的领域知识基准，含中文/英文版本，覆盖专业与跨学科知识。 (arXiv)

用法提示：通识题普遍对少样本示例/解码温度敏感；为对比公平，固定few-shot样例与随机种子，报告平均值±方差。

二、中文对齐/指令跟随（主观偏好 & 多维评分）

AlignBench（THUDM）：面向中文LLM的多维对齐评测，提供评分模型（CritiqueLLM）与规则校准，ACL 2024。指标：1–10分的综合与维度分。 (GitHub)
SuperCLUE：中文通用大模型综合基准，含开放式（OPEN）、客观题（OPT）与“琅琊榜”匿名对战，月度榜单。 (CLUE基准测评)

用法提示：若用“LLM裁判”，务必长度控制或配评分规则，避免“回答越长分越高”的系统性偏置。AlignBench/SuperCLUE均提供实践路径。 (GitHub)

三、长上下文（中文）

LongBench：双语长上下文套件（21数据集，含中文），覆盖QA/摘要/合成任务/代码等。 (arXiv)
L-Eval：标准化长上下文评测（3k–200k tokens），含数据与评测度量设计；近期ACL长文版本更新。 (ACL Anthology)
CLongEval：专门的中文长上下文评测，7任务、7267样本。 (arXiv)
RULER：检验“有效上下文长度”的合成基准，测检索/多跳跟踪/聚合等，不止于“找针”。 (GitHub)

用法提示：不要把“窗口上限=可用推理长度”。同时报检索成功率、多跳与聚合任务成绩，能区分“放得下”和“用得好”。 (GitHub)

四、多模态（中文图文）

MMBench / MMBench-CN：OpenCompass 多模态通用评测，细分20+能力，循环打乱选项验证一致性；有中文榜单。 (GitHub)
CMMMU：中文高校级多学科多模态理解（12k题、6大领域、30学科、39类图像类型）；GPT-4V在此仅约42%准确率，空间很大。 (arXiv)

用法提示：多模态评测请固定视觉分辨率/提示模板/选项打乱策略，并记录答案映射与一致性校验。 (GitHub)

五、RAG/检索与中文阅读理解

DuReader-Retrieval：真实搜索日志构建的大规模中文段落检索数据集，适合先测召回/排序（Recall@k、nDCG@k）。 (GitHub)
CMRC-2018：中文机器阅读理解（抽取式），可作RAG读理解的生成端对照评测（EM/F1）。 (GitHub)
（补充）T2Ranking：30万查询、200万段落的中文排序基准，用于检索侧泛化对比。 (51CTO)

用法提示：RAG请分别报告检索侧与生成侧指标（如Faithfulness/Answer Correctness），并做chunk大小 / top-k / 重排消融。

六、安全/对抗鲁棒（中文）

SafetyBench：11,435道多选题、7大安全类别；中英文双语，易做横向对比。指标：安全合规正确率/越界率。 (GitHub)
JailbreakBench：开放的越狱鲁棒性基准/工具链，支持中文与英文，含编码/多轮操控等攻击形态与报告。指标：攻击成功率、过拒比等。 (GitHub)

用法提示：同时监控“防御有效”与“过度拒答”，记录系统提示/拦截策略，确保可复现。 (GitHub)

七、医疗等垂直中文领域

CMB（中文医学综合基准）：面向中文医学场景的综合评测（含考试子集CMB-Exam与临床问答等），NAACL 2024 长文版。 (ACL Anthology)
（相关数据）cMedQA v1/v2：中文医疗社区问答（检索式/匹配式评测）；可作医疗RAG/生成的补充。 (GitHub)

快速配方（拿来就跑）

中文通用助手（知识+推理）：C-Eval + CMMLU + M3KE（广度）；补 AGIEval（真实考试风格）。再加 AlignBench / SuperCLUE 看对齐偏好。 (NeurIPS 会议论文集)
长文档/政企知识库：LongBench（含中文） + L-Eval 或 CLongEval；若上RAG，用 DuReader-Retrieval + 自家语料做召回/排序 + 生成端忠实度指标。 (arXiv)
中文多模态助手：MMBench-CN + CMMMU（更难）；报告准确率 + 一致性检查。 (mmbench.opencompass.org.cn)
合规/风控：SafetyBench（客观题） + JailbreakBench（实战越狱）。 (GitHub)
医疗垂直：CMB主评 +（可选）cMedQA作检索问答补测。 (ACL Anthology)

跑分与复现实务清单

固定解码与种子：温度/Top-p/最大输出/Stop词/少样本k要写进报告；多次运行取均值±标准差。
评测洁净度：避免把训练材料与评测题同源混入；如无法排除，至少披露潜在重合风险。
LLM裁判偏置：对主观题使用长度控制或规则校准；保留原始回答与裁判打分日志。 (GitHub)
长上下文声明：同时给出RULER类“有效长度”与LongBench/L-Eval真实任务成绩，避免“只看窗口”。 (GitHub)

实用平台

OpenCompass：一站式多语种/多模态评测框架与榜单；支持 MMBench 等。 (GitHub)
CLUE/SuperCLUE 官网：中文理解与通用大模型榜单与工具。 (CLUE基准测评)

本文作者：cmyfoucs

原文链接： https://dovic.cn/index.php/archives/grok01.html

版权声明：部分资源引用或转载来自于网络，解释权归 AI学习空间，若侵权请联系删除！转载请保留文章链接！本文采用知识共享署名-非商业性使用 4.0 国际许可协议。本项目采用 BSD-3-Clause许可证|| MIT 许可证。

引用【BibLaTeX@online】

@online{Title-2025-342,
        title={中文大模型评测基准},
        author={cmyfoucs},
        year={2025},
        month={10},
        url={\url{https://dovic.cn/index.php/archives/grok01.html}},
}

添加新评论