| 排名 | 模型 | 参数量 | 均分 | MMLU | HumanEval | GSM8K | 许可证 |
|---|
大语言模型(LLM)基准测试是评估模型能力的标准化方法。不同的基准侧重不同的能力维度,综合多项指标才能全面反映模型水平。
| 基准 | 全称 | 测试内容 | 满分 |
|---|---|---|---|
| MMLU | Massive Multitask Language Understanding | 涵盖57个学科的多项选择题,包括数学、历史、法律、医学等 | 100% |
| HumanEval | Human Evaluated Code Generation | OpenAI发布的代码生成基准,评估模型根据函数签名生成正确代码的能力 | 100% |
| GSM8K | Grade School Math 8K | 8500道小学数学应用题,测试模型的多步推理和数学能力 | 100% |
本排行榜基于三项基准的算术平均值进行排名,数据来源于各模型官方技术报告及社区复现结果。不同评测环境下分数可能存在细微差异,仅供参考。
| 许可证 | 商业使用 | 修改 | 分发 | 代表模型 |
|---|---|---|---|---|
| Apache 2.0 | 允许 | 允许 | 允许(需保留版权) | Qwen 2.5, Gemma 2 |
| MIT | 允许 | 允许 | 允许(最宽松) | Phi-3, Mistral 7B |
| Llama Community License | 有条件允许(月活<7亿) | 允许 | 允许(需注明) | Llama 3.1系列 |
| DeepSeek License | 有条件允许 | 允许 | 允许(需注明) | DeepSeek V3 |