人类看文字是字、词、句子,AI 不会直接读懂字符,它会先把整段文本切割成一个个小片段,这些片段就是 Token。
切割规则不固定:可能是单个汉字、偏旁、词语、字母、标点、子词。
中文
句子:今天天气很好
拆分后 Token:今 + 天 + 天 + 气 + 很 + 好
中文大致1 个汉字 ≈ 1 个 Token。
英文
句子:Hello world
拆分后 Token:Hello + world
英文通常1~2 个单词 ≈ 1 个 Token,长单词还会被继续切分。
混合 / 长词
生僻词、网络词、专业词会被拆成多个子 Token:
人工智能 → 人工 + 智能
上下文长度限制
所有大模型都有最大 Token 上限(比如 4k、8k、32k、128k)。
你的提问 + 模型回答总 Token 超过上限,就会截断内容、丢失上下文。
计费依据
商用 API 接口按 Token 计费,输入、输出分开统计。
模型理解基础
模型所有语义、翻译、问答、生成,都是基于 Token 序列计算。
简单总结:
Token = AI 的 “文字积木”,文本先拆成积木,模型才能读取、计算、生成内容。

微信扫码加好友
全部评论