AI Rookies

Prefill — 预填充

事实

推理时先处理输入并生成 KV 缓存的阶段。

人话

预填充像答题前先通读全文:一个字还没写,重点已经全画好线。

用于聊天和长文问答,决定首字等待,也影响部分成本。

相关概念

KV cache
预填充把整段提示算成 KV 缓存,供后续生成复用。

Inference engine
推理引擎负责调度预填充和逐词生成两阶段。

Context-window
上下文越长,预填充要处理的内容越多。