paper
中文大模型评测基准
一、通识/考试类(中文知识广度 & 推理)C-Eval:52学科、四个难度层级(初/高中、本科、职业);附带更难的 C-Eval Hard。指标:准确率。适合做中文“通才水平线”。 (arXiv)CMMLU:中文版“多任务通识”,覆盖自然/社科/工程/人文;对多种中文/多语模型做了系统评测。指标:准确率。 (arXiv)M3KE:2万+题、71任务,覆盖中国教育体系多层级;选择题统一评测。适合补充...