一种把文本切成子词 token 的编码方法。
BPE 像乐高拼句子:常同框的小块先扣牢,生词也能临时拼出来。
它控制词表并减少生词,是大模型分词常用底座。
TokenBPE 决定一段文本会被切成哪些 token。
Embedding文本先经 BPE 切块,才能进入向量表示。
LLM许多大语言模型用 BPE 作为分词底座。