Token 是 AI 语言模型处理文本的基本单位。模型不会直接按字符或单词读取文本,而是先通过分词器(Tokenizer)将文本切分成若干"Token"片段,再对这些片段进行处理和生成。Token 可以是一个完整的单词、一个词的一部分、一个汉字,甚至是一个标点符号。
| 文本类型 | Token : 字符 比例 | 说明 |
|---|---|---|
| 英文(常用词) | 1 token ≈ 4 字符 | "hello" = 1 token,"unbelievable" ≈ 3 tokens |
| 英文(代码/特殊) | 1 token ≈ 2~3 字符 | 变量名、符号切分更细 |
| 中文 | 1 token ≈ 1~2 字符 | 每个汉字通常占 1~2 个 token |
| 日文 / 韩文 | 1 token ≈ 1~2 字符 | 与中文类似 |
| 混合文本 | 介于中英之间 | 按比例加权估算 |
各家模型使用不同的分词算法(Tokenizer):
因此,同一段文本在不同模型中的 token 数可能相差 10%~30%,本工具提供的是估算值,实际计费以各平台官方 token 计数为准。
| 模型 | 输入价格 | 输出价格 | 上下文窗口 |
|---|---|---|---|
| GPT-4o | $2.50 / 1M tokens | $10.00 / 1M tokens | 128K |
| GPT-3.5 Turbo | $0.50 / 1M tokens | $1.50 / 1M tokens | 16K |
| Claude 3.5 Sonnet | $3.00 / 1M tokens | $15.00 / 1M tokens | 200K |
| Gemini 1.5 Pro | $1.25 / 1M tokens | $5.00 / 1M tokens | 2M |