← 返回工具箱
🏆 开源大模型排行榜

Open Source LLM Benchmark Leaderboard

参数规模:
排名 模型 参数量 均分 MMLU HumanEval GSM8K 许可证
MMLU: 多任务语言理解 HumanEval: 代码生成 GSM8K: 小学数学推理
数据来源:各模型官方报告及社区评测  |  参考更新日期:2026 Q1

📖 关于大模型基准测试

大语言模型(LLM)基准测试是评估模型能力的标准化方法。不同的基准侧重不同的能力维度,综合多项指标才能全面反映模型水平。

主要基准介绍

基准全称测试内容满分
MMLUMassive Multitask Language Understanding涵盖57个学科的多项选择题,包括数学、历史、法律、医学等100%
HumanEvalHuman Evaluated Code GenerationOpenAI发布的代码生成基准,评估模型根据函数签名生成正确代码的能力100%
GSM8KGrade School Math 8K8500道小学数学应用题,测试模型的多步推理和数学能力100%

排名说明

本排行榜基于三项基准的算术平均值进行排名,数据来源于各模型官方技术报告及社区复现结果。不同评测环境下分数可能存在细微差异,仅供参考。

常见开源许可证对比

许可证商业使用修改分发代表模型
Apache 2.0允许允许允许(需保留版权)Qwen 2.5, Gemma 2
MIT允许允许允许(最宽松)Phi-3, Mistral 7B
Llama Community License有条件允许(月活<7亿)允许允许(需注明)Llama 3.1系列
DeepSeek License有条件允许允许允许(需注明)DeepSeek V3
💡 提示:基准分数不等于实际使用效果。选择模型时还应考虑推理速度、内存占用、指令跟随能力、多语言支持以及特定业务场景的表现。建议在目标任务上进行实测对比。