← 返回工具箱
🪝 Token可视化切分

输入文本进行Token可视化

可视化结果将显示在此处,每个Token以不同颜色高亮,悬停查看编号。

📖 Token与大模型计费原理

什么是Token?

Token是大型语言模型(LLM)处理文本的基本单位,既不完全等于字,也不等于词。不同模型的分词方式不同,常见算法包括BPE(字节对编码)、WordPiece、SentencePiece等。

各语言Token效率对比

语言平均比例说明
英语约 1 token / 4字符常见英文词通常是1个token
中文(GPT系列)约 1~2 token / 字常用汉字通常1个token,生僻字可能2个
中文(Claude)约 1 token / 字Claude对中文tokenization较友好
日文/韩文约 1~2 token / 字与中文类似
代码约 1 token / 3~5字符取决于语言和缩进风格

BPE分词算法

Byte Pair Encoding(字节对编码)是主流LLM使用的分词方法。它通过统计语料库中最常见的字节对,迭代合并构建词表,在词表大小和覆盖率之间取得平衡。

BPE算法步骤:
1. 将所有文本拆分为单个字符
2. 统计相邻字符对的出现频率
3. 将最高频字符对合并为一个新token
4. 重复步骤2-3,直到达到词表大小上限

例:「unrelated」→ [un][related] → [un][re][lated] 等

主流模型词表大小

模型系列词表大小分词算法
GPT-4 / GPT-3.5100,277cl100k_base (BPE)
Claude 3 / 3.5~100KBPE(内部)
Gemini 1.5~256KSentencePiece
Llama 3128,256tiktoken BPE
Qwen2 / 通义~150KBPE(中文优化)

Token计费与上下文窗口

API调用费用通常按输入token数 + 输出token数计算。上下文窗口(Context Window)限制了单次对话可处理的最大token数,超出会导致早期内容被截断。

💡 节省Token的技巧:使用简洁的Prompt,减少冗余说明;对中文内容,选择对中文分词友好的模型(如Claude、Qwen)可降低token消耗;代码中减少注释和空白行;在多轮对话中及时清理无关历史记录。