一、通识/考试类(中文知识广度 & 推理)
- C-Eval:52学科、四个难度层级(初/高中、本科、职业);附带更难的 C-Eval Hard。指标:准确率。适合做中文“通才水平线”。 (arXiv)
- CMMLU:中文版“多任务通识”,覆盖自然/社科/工程/人文;对多种中文/多语模型做了系统评测。指标:准确率。 (arXiv)
- M3KE:2万+题、71任务,覆盖中国教育体系多层级;选择题统一评测。适合补充更细学科面。 (arXiv)
- AGIEval(含高考/国考/律师/LSAT/SAT等):贴近“真人考试”的中文&英文题型,测“类人能力”。报告多任务成绩。 (GitHub)
- 谢知(Xiezhi):持续更新的领域知识基准,含中文/英文版本,覆盖专业与跨学科知识。 (arXiv)
用法提示:通识题普遍对少样本示例/解码温度敏感;为对比公平,固定few-shot样例与随机种子,报告平均值±方差。
二、中文对齐/指令跟随(主观偏好 & 多维评分)
- AlignBench(THUDM):面向中文LLM的多维对齐评测,提供评分模型(CritiqueLLM)与规则校准,ACL 2024。指标:1–10分的综合与维度分。 (GitHub)
- SuperCLUE:中文通用大模型综合基准,含开放式(OPEN)、客观题(OPT)与“琅琊榜”匿名对战,月度榜单。 (CLUE基准测评)
用法提示:若用“LLM裁判”,务必长度控制或配评分规则,避免“回答越长分越高”的系统性偏置。AlignBench/SuperCLUE均提供实践路径。 (GitHub)
三、长上下文(中文)
- LongBench:双语长上下文套件(21数据集,含中文),覆盖QA/摘要/合成任务/代码等。 (arXiv)
- L-Eval:标准化长上下文评测(3k–200k tokens),含数据与评测度量设计;近期ACL长文版本更新。 (ACL Anthology)
- CLongEval:专门的中文长上下文评测,7任务、7267样本。 (arXiv)
- RULER:检验“有效上下文长度”的合成基准,测检索/多跳跟踪/聚合等,不止于“找针”。 (GitHub)
用法提示:不要把“窗口上限=可用推理长度”。同时报检索成功率、多跳与聚合任务成绩,能区分“放得下”和“用得好”。 (GitHub)
四、多模态(中文图文)
- MMBench / MMBench-CN:OpenCompass 多模态通用评测,细分20+能力,循环打乱选项验证一致性;有中文榜单。 (GitHub)
- CMMMU:中文高校级多学科多模态理解(12k题、6大领域、30学科、39类图像类型);GPT-4V在此仅约42%准确率,空间很大。 (arXiv)
用法提示:多模态评测请固定视觉分辨率/提示模板/选项打乱策略,并记录答案映射与一致性校验。 (GitHub)
五、RAG/检索与中文阅读理解
- DuReader-Retrieval:真实搜索日志构建的大规模中文段落检索数据集,适合先测召回/排序(Recall@k、nDCG@k)。 (GitHub)
- CMRC-2018:中文机器阅读理解(抽取式),可作RAG读理解的生成端对照评测(EM/F1)。 (GitHub)
- (补充)T2Ranking:30万查询、200万段落的中文排序基准,用于检索侧泛化对比。 (51CTO)
用法提示:RAG请分别报告检索侧与生成侧指标(如Faithfulness/Answer Correctness),并做chunk大小 / top-k / 重排消融。
六、安全/对抗鲁棒(中文)
- SafetyBench:11,435道多选题、7大安全类别;中英文双语,易做横向对比。指标:安全合规正确率/越界率。 (GitHub)
- JailbreakBench:开放的越狱鲁棒性基准/工具链,支持中文与英文,含编码/多轮操控等攻击形态与报告。指标:攻击成功率、过拒比等。 (GitHub)
用法提示:同时监控“防御有效”与“过度拒答”,记录系统提示/拦截策略,确保可复现。 (GitHub)
七、医疗等垂直中文领域
- CMB(中文医学综合基准):面向中文医学场景的综合评测(含考试子集CMB-Exam与临床问答等),NAACL 2024 长文版。 (ACL Anthology)
- (相关数据)cMedQA v1/v2:中文医疗社区问答(检索式/匹配式评测);可作医疗RAG/生成的补充。 (GitHub)
快速配方(拿来就跑)
- 中文通用助手(知识+推理):C-Eval + CMMLU + M3KE(广度);补 AGIEval(真实考试风格)。再加 AlignBench / SuperCLUE 看对齐偏好。 (NeurIPS 会议论文集)
- 长文档/政企知识库:LongBench(含中文) + L-Eval 或 CLongEval;若上RAG,用 DuReader-Retrieval + 自家语料做召回/排序 + 生成端忠实度指标。 (arXiv)
- 中文多模态助手:MMBench-CN + CMMMU(更难);报告准确率 + 一致性检查。 (mmbench.opencompass.org.cn)
- 合规/风控:SafetyBench(客观题) + JailbreakBench(实战越狱)。 (GitHub)
- 医疗垂直:CMB主评 +(可选)cMedQA作检索问答补测。 (ACL Anthology)
跑分与复现实务清单
- 固定解码与种子:温度/Top-p/最大输出/Stop词/少样本k要写进报告;多次运行取均值±标准差。
- 评测洁净度:避免把训练材料与评测题同源混入;如无法排除,至少披露潜在重合风险。
- LLM裁判偏置:对主观题使用长度控制或规则校准;保留原始回答与裁判打分日志。 (GitHub)
- 长上下文声明:同时给出RULER类“有效长度”与LongBench/L-Eval真实任务成绩,避免“只看窗口”。 (GitHub)