中文大模型评测基准

一、通识/考试类(中文知识广度 & 推理)

  • C-Eval:52学科、四个难度层级(初/高中、本科、职业);附带更难的 C-Eval Hard。指标:准确率。适合做中文“通才水平线”。 (arXiv)
  • CMMLU:中文版“多任务通识”,覆盖自然/社科/工程/人文;对多种中文/多语模型做了系统评测。指标:准确率。 (arXiv)
  • M3KE:2万+题、71任务,覆盖中国教育体系多层级;选择题统一评测。适合补充更细学科面。 (arXiv)
  • AGIEval(含高考/国考/律师/LSAT/SAT等):贴近“真人考试”的中文&英文题型,测“类人能力”。报告多任务成绩。 (GitHub)
  • 谢知(Xiezhi):持续更新的领域知识基准,含中文/英文版本,覆盖专业与跨学科知识。 (arXiv)

用法提示:通识题普遍对少样本示例/解码温度敏感;为对比公平,固定few-shot样例与随机种子,报告平均值±方差。

二、中文对齐/指令跟随(主观偏好 & 多维评分)

  • AlignBench(THUDM):面向中文LLM的多维对齐评测,提供评分模型(CritiqueLLM)与规则校准,ACL 2024。指标:1–10分的综合与维度分。 (GitHub)
  • SuperCLUE:中文通用大模型综合基准,含开放式(OPEN)、客观题(OPT)与“琅琊榜”匿名对战,月度榜单。 (CLUE基准测评)

用法提示:若用“LLM裁判”,务必长度控制或配评分规则,避免“回答越长分越高”的系统性偏置。AlignBench/SuperCLUE均提供实践路径。 (GitHub)

三、长上下文(中文)

  • LongBench:双语长上下文套件(21数据集,含中文),覆盖QA/摘要/合成任务/代码等。 (arXiv)
  • L-Eval:标准化长上下文评测(3k–200k tokens),含数据与评测度量设计;近期ACL长文版本更新。 (ACL Anthology)
  • CLongEval:专门的中文长上下文评测,7任务、7267样本。 (arXiv)
  • RULER:检验“有效上下文长度”的合成基准,测检索/多跳跟踪/聚合等,不止于“找针”。 (GitHub)

用法提示:不要把“窗口上限=可用推理长度”。同时报检索成功率、多跳与聚合任务成绩,能区分“放得下”和“用得好”。 (GitHub)

四、多模态(中文图文)

  • MMBench / MMBench-CN:OpenCompass 多模态通用评测,细分20+能力,循环打乱选项验证一致性;有中文榜单。 (GitHub)
  • CMMMU:中文高校级多学科多模态理解(12k题、6大领域、30学科、39类图像类型);GPT-4V在此仅约42%准确率,空间很大。 (arXiv)

用法提示:多模态评测请固定视觉分辨率/提示模板/选项打乱策略,并记录答案映射与一致性校验。 (GitHub)

五、RAG/检索与中文阅读理解

  • DuReader-Retrieval:真实搜索日志构建的大规模中文段落检索数据集,适合先测召回/排序(Recall@k、nDCG@k)。 (GitHub)
  • CMRC-2018:中文机器阅读理解(抽取式),可作RAG读理解的生成端对照评测(EM/F1)。 (GitHub)
  • (补充)T2Ranking:30万查询、200万段落的中文排序基准,用于检索侧泛化对比。 (51CTO)

用法提示:RAG请分别报告检索侧生成侧指标(如Faithfulness/Answer Correctness),并做chunk大小 / top-k / 重排消融。

六、安全/对抗鲁棒(中文)

  • SafetyBench:11,435道多选题、7大安全类别;中英文双语,易做横向对比。指标:安全合规正确率/越界率。 (GitHub)
  • JailbreakBench:开放的越狱鲁棒性基准/工具链,支持中文与英文,含编码/多轮操控等攻击形态与报告。指标:攻击成功率、过拒比等。 (GitHub)

用法提示:同时监控“防御有效”与“过度拒答”,记录系统提示/拦截策略,确保可复现。 (GitHub)

七、医疗等垂直中文领域

  • CMB(中文医学综合基准):面向中文医学场景的综合评测(含考试子集CMB-Exam与临床问答等),NAACL 2024 长文版。 (ACL Anthology)
  • (相关数据)cMedQA v1/v2:中文医疗社区问答(检索式/匹配式评测);可作医疗RAG/生成的补充。 (GitHub)

快速配方(拿来就跑)

  • 中文通用助手(知识+推理):C-Eval + CMMLU + M3KE(广度);补 AGIEval(真实考试风格)。再加 AlignBench / SuperCLUE 看对齐偏好。 (NeurIPS 会议论文集)
  • 长文档/政企知识库:LongBench(含中文) + L-Eval 或 CLongEval;若上RAG,用 DuReader-Retrieval + 自家语料做召回/排序 + 生成端忠实度指标。 (arXiv)
  • 中文多模态助手:MMBench-CN + CMMMU(更难);报告准确率 + 一致性检查。 (mmbench.opencompass.org.cn)
  • 合规/风控:SafetyBench(客观题) + JailbreakBench(实战越狱)。 (GitHub)
  • 医疗垂直:CMB主评 +(可选)cMedQA作检索问答补测。 (ACL Anthology)

跑分与复现实务清单

  1. 固定解码与种子:温度/Top-p/最大输出/Stop词/少样本k要写进报告;多次运行取均值±标准差。
  2. 评测洁净度:避免把训练材料与评测题同源混入;如无法排除,至少披露潜在重合风险。
  3. LLM裁判偏置:对主观题使用长度控制或规则校准;保留原始回答与裁判打分日志。 (GitHub)
  4. 长上下文声明:同时给出RULER类“有效长度”与LongBench/L-Eval真实任务成绩,避免“只看窗口”。 (GitHub)

实用平台

  • OpenCompass:一站式多语种/多模态评测框架与榜单;支持 MMBench 等。 (GitHub)
  • CLUE/SuperCLUE 官网:中文理解与通用大模型榜单与工具。 (CLUE基准测评)

添加新评论