开源模型排行榜 - 在线开源模型排行榜

Open Source LLM Benchmark Leaderboard

参数规模：

排名 ↕	模型 ↕	参数量 ↕	均分 ↓	MMLU ↕	HumanEval ↕	GSM8K ↕	许可证 ↕

MMLU: 多任务语言理解 HumanEval: 代码生成 GSM8K: 小学数学推理

数据来源：各模型官方报告及社区评测 | 参考更新日期：2026 Q1

大语言模型（LLM）基准测试是评估模型能力的标准化方法。不同的基准侧重不同的能力维度，综合多项指标才能全面反映模型水平。

基准	全称	测试内容	满分
MMLU	Massive Multitask Language Understanding	涵盖57个学科的多项选择题，包括数学、历史、法律、医学等	100%
HumanEval	Human Evaluated Code Generation	OpenAI发布的代码生成基准，评估模型根据函数签名生成正确代码的能力	100%
GSM8K	Grade School Math 8K	8500道小学数学应用题，测试模型的多步推理和数学能力	100%

本排行榜基于三项基准的算术平均值进行排名，数据来源于各模型官方技术报告及社区复现结果。不同评测环境下分数可能存在细微差异，仅供参考。

💡 提示：基准分数不等于实际使用效果。选择模型时还应考虑推理速度、内存占用、指令跟随能力、多语言支持以及特定业务场景的表现。建议在目标任务上进行实测对比。