Token可视化切分 - 在线Token可视化切分

输入文本进行Token可视化

模型：实时预览

输入文本

可视化结果将显示在此处，每个Token以不同颜色高亮，悬停查看编号。

Token是大型语言模型（LLM）处理文本的基本单位，既不完全等于字，也不等于词。不同模型的分词方式不同，常见算法包括BPE（字节对编码）、WordPiece、SentencePiece等。

Byte Pair Encoding（字节对编码）是主流LLM使用的分词方法。它通过统计语料库中最常见的字节对，迭代合并构建词表，在词表大小和覆盖率之间取得平衡。

BPE算法步骤：
1. 将所有文本拆分为单个字符
2. 统计相邻字符对的出现频率
3. 将最高频字符对合并为一个新token
4. 重复步骤2-3，直到达到词表大小上限

例：「unrelated」→ [un][related] → [un][re][lated] 等

API调用费用通常按输入token数 + 输出token数计算。上下文窗口（Context Window）限制了单次对话可处理的最大token数，超出会导致早期内容被截断。

💡 节省Token的技巧：使用简洁的Prompt，减少冗余说明；对中文内容，选择对中文分词友好的模型（如Claude、Qwen）可降低token消耗；代码中减少注释和空白行；在多轮对话中及时清理无关历史记录。