Token词元

14人浏览 / 0人评论 / 添加收藏

Token（词元） 是大模型处理文本的最小基本单位，可以理解为模型眼里的 “文字碎片”。

一、核心是什么

人类看文字是字、词、句子，AI 不会直接读懂字符，它会先把整段文本切割成一个个小片段，这些片段就是 Token。

切割规则不固定：可能是单个汉字、偏旁、词语、字母、标点、子词。

中文

句子：今天天气很好

拆分后 Token：今 + 天 + 天 + 气 + 很 + 好

中文大致1 个汉字 ≈ 1 个 Token。

英文

句子：Hello world

拆分后 Token：Hello + world

英文通常1~2 个单词 ≈ 1 个 Token，长单词还会被继续切分。

混合 / 长词

生僻词、网络词、专业词会被拆成多个子 Token：

人工智能 → 人工 + 智能

主流大模型通用估算：

上下文长度限制

所有大模型都有最大 Token 上限（比如 4k、8k、32k、128k）。

你的提问 + 模型回答总 Token 超过上限，就会截断内容、丢失上下文。

计费依据

商用 API 接口按 Token 计费，输入、输出分开统计。

模型理解基础

模型所有语义、翻译、问答、生成，都是基于 Token 序列计算。

简单总结：

Token = AI 的 “文字积木”，文本先拆成积木，模型才能读取、计算、生成内容。

搜索