分类 "paper" 下的文章

共找到 2 篇文章

大模型测评基准

· paper · 30 分钟阅读
0) Your evaluation stack 【don’t skip this】Harnesses: Prefer a standard runner so decoding, few-shoting, and caching are consistent:EleutherAI lm-evaluation-harness (CLI; wide task coverage; now with m...

中文大模型评测基准

· paper · 9 分钟阅读
一、通识/考试类(中文知识广度 & 推理)C-Eval:52学科、四个难度层级(初/高中、本科、职业);附带更难的 C-Eval Hard。指标:准确率。适合做中文“通才水平线”。 (arXiv)CMMLU:中文版“多任务通识”,覆盖自然/社科/工程/人文;对多种中文/多语模型做了系统评测。指标:准确率。 (arXiv)M3KE:2万+题、71任务,覆盖中国教育体系多层级;选择题统一评测。适合补充...