AI Rookies

BPE — 字节对编码

事实

一种把文本切成子词 token 的编码方法。

人话

BPE 像乐高拼句子:常同框的小块先扣牢,生词也能临时拼出来。

它控制词表并减少生词,是大模型分词常用底座。

相关概念

Token
BPE 决定一段文本会被切成哪些 token。

Embedding
文本先经 BPE 切块,才能进入向量表示。

LLM
许多大语言模型用 BPE 作为分词底座。