大模型测评基准 2025年10月10日 · paper · 30 分钟阅读 0) Your evaluation stack 【don’t skip this】Harnesses: Prefer a standard runner so decoding, few-shoting, and caching are consistent:EleutherAI lm-evaluation-harness (CLI; wide task coverage; now with m...
中文大模型评测基准 2025年10月01日 · paper · 9 分钟阅读 一、通识/考试类(中文知识广度 & 推理)C-Eval:52学科、四个难度层级(初/高中、本科、职业);附带更难的 C-Eval Hard。指标:准确率。适合做中文“通才水平线”。 (arXiv)CMMLU:中文版“多任务通识”,覆盖自然/社科/工程/人文;对多种中文/多语模型做了系统评测。指标:准确率。 (arXiv)M3KE:2万+题、71任务,覆盖中国教育体系多层级;选择题统一评测。适合补充...