Token词元

14人浏览 / 0人评论 / 添加收藏
Token(词元) 是大模型处理文本的最小基本单位,可以理解为模型眼里的 “文字碎片”。
 

一、核心是什么

人类看文字是字、词、句子,AI 不会直接读懂字符,它会先把整段文本切割成一个个小片段,这些片段就是 Token

切割规则不固定:可能是单个汉字、偏旁、词语、字母、标点、子词

 

二、常见拆分示例(以主流中文分词器为例)

 

中文

句子:今天天气很好

拆分后 Token: + + + + +

中文大致1 个汉字 ≈ 1 个 Token

 

英文

句子:Hello world

拆分后 Token:Hello + world

英文通常1~2 个单词 ≈ 1 个 Token,长单词还会被继续切分。

 

混合 / 长词

生僻词、网络词、专业词会被拆成多个子 Token:

人工智能人工 + 智能

 

三、和字数、字符的换算(实用参考)

 
主流大模型通用估算:
  • 中文1 Token ≈ 1 个汉字(含标点、空格)
  • 英文1 Token ≈ 4 个英文字符 / 0.75 个单词
 

四、Token 的关键作用

 

上下文长度限制

所有大模型都有最大 Token 上限(比如 4k、8k、32k、128k)。

你的提问 + 模型回答总 Token 超过上限,就会截断内容、丢失上下文。

 

计费依据

商用 API 接口按 Token 计费,输入、输出分开统计。

模型理解基础

模型所有语义、翻译、问答、生成,都是基于 Token 序列计算。

 

五、补充小概念

  • Tokenizer(分词器):专门把文本切成 Token 的工具,不同模型(GPT、文心、通义、LLaMA)分词规则不一样。
  • Embedding(词嵌入):把每个 Token 转成数字向量,模型才能运算。
 

简单总结:

Token = AI 的 “文字积木”,文本先拆成积木,模型才能读取、计算、生成内容。

全部评论