中文大模型评测基准

paper

中文大模型评测基准

2025年10月01日 · paper · 9 分钟阅读

一、通识/考试类（中文知识广度 & 推理）C-Eval：52学科、四个难度层级（初/高中、本科、职业）；附带更难的 C-Eval Hard。指标：准确率。适合做中文“通才水平线”。 (arXiv)CMMLU：中文版“多任务通识”，覆盖自然/社科/工程/人文；对多种中文/多语模型做了系统评测。指标：准确率。 (arXiv)M3KE：2万+题、71任务，覆盖中国教育体系多层级；选择题统一评测。适合补充...

标签 "LLM" 下的文章