中文大模型评测基准

Research Report: Handbook for Large Language Model Evaluation Benchmarks-v2025F1

2025年10月18日 · Large language Model · 32 分钟阅读

Executive SummaryLarge Language Model （LLM） evaluation benchmarks serve as critical infrastructure for the responsible development, deployment, and regulation of artificial intelligence systems. This ...

大模型评估基准手册研究报告

2025年10月17日 · Large language Model · 20 分钟阅读

大模型评估基准手册是指导大模型性能评估的专业工具，其重要性随着大模型在各行业的应用日益广泛而显著提升。构建科学、全面、客观的大模型评估体系，不仅能帮助研究者和开发者准确把握模型能力边界，还能为模型优化提供方向性指导，同时为行业应用选型提供可靠依据。本报告基于最新研究进展，系统梳理了大模型评估的关键维度、指标、方法及工具，旨在为大模型研发、测试和应用提供标准化评估框架。一、大模型评估的关键维度与指标...

deepseek原理笔记(1)

2025年10月05日 · Large language Model · 50 分钟阅读

deepseek原理综述🔢 核心思想：下一个词的预测大型语言模型的本质是一个概率模型。给定一个词序列（即上下文或提示），其根本任务是预测下一个最可能出现的词。基本设定：设有一个词序列(w_1, w_2, w_3, \dots, w_{t-1})，其中每个(w_i)来自一个庞大的词汇表 (V)。核心目标：计算在给定上文的情况下，下一个词 (w_t) 是词汇表中任意一个词的条件概率：$$ P(w_t ...

中文大模型评测基准

2025年10月01日 · paper · 9 分钟阅读

一、通识/考试类（中文知识广度 & 推理）C-Eval：52学科、四个难度层级（初/高中、本科、职业）；附带更难的 C-Eval Hard。指标：准确率。适合做中文“通才水平线”。 (arXiv)CMMLU：中文版“多任务通识”，覆盖自然/社科/工程/人文；对多种中文/多语模型做了系统评测。指标：准确率。 (arXiv)M3KE：2万+题、71任务，覆盖中国教育体系多层级；选择题统一评测。适合补充...

标签 "LLM" 下的文章