| 模型 | 提供商 | 上下文长度 | 模态 | 输入价格 $/百万 tokens |
输出价格 $/百万 tokens |
开源 | 发布时间 |
|---|
上下文窗口决定了模型在单次对话中能处理的最大文本量。更长的上下文允许模型处理更长的文档、更复杂的多轮对话,以及整个代码库。1M tokens 大约等于 75 万个英文单词,或约 50 万个中文汉字。
| 上下文长度 | 大约等于 | 典型应用场景 |
|---|---|---|
| 128K tokens | ~10 万中文字 | 长文档分析、代码审查 |
| 200K tokens | ~15 万中文字 | 书籍摘要、长期对话记忆 |
| 1M tokens | ~75 万中文字 | 整个代码库、超长视频分析 |
主流商业模型均采用按 token 计费模式,输入 token(prompt)和输出 token(completion)分开定价,通常输出价格高于输入价格。开源模型可自行部署,推理成本取决于硬件费用。
多模态(Multimodal)模型能够理解和生成多种类型的数据,包括文本、图像、音频、视频等。2024-2026 年发布的主流模型大多具备图像理解能力,部分模型还支持音频输入和视频理解。
| 维度 | 开源模型 | 闭源模型 |
|---|---|---|
| 成本 | 自部署推理成本,无 API 费用 | 按 token 付费 |
| 隐私 | 数据不离开自有环境 | 数据发送至服务商 |
| 定制性 | 可微调、可修改权重 | 通常仅支持 prompt 调整 |
| 维护 | 需自行管理基础设施 | 服务商负责维护更新 |
| 性能上限 | 受硬件限制,通常低于顶尖闭源 | 通常更强(GPT-4o、Claude Opus) |