中文大模型评测基准

大模型测评基准

2025年10月10日 · paper · 30 分钟阅读

0） Your evaluation stack 【don’t skip this】Harnesses: Prefer a standard runner so decoding, few-shoting, and caching are consistent:EleutherAI lm-evaluation-harness （CLI; wide task coverage; now with m...

中文大模型评测基准

2025年10月01日 · paper · 9 分钟阅读

一、通识/考试类（中文知识广度 & 推理）C-Eval：52学科、四个难度层级（初/高中、本科、职业）；附带更难的 C-Eval Hard。指标：准确率。适合做中文“通才水平线”。 (arXiv)CMMLU：中文版“多任务通识”，覆盖自然/社科/工程/人文；对多种中文/多语模型做了系统评测。指标：准确率。 (arXiv)M3KE：2万+题、71任务，覆盖中国教育体系多层级；选择题统一评测。适合补充...

分类 "paper" 下的文章