Prefill — 预填充

事实

推理时先处理输入并生成 KV 缓存的阶段。

人话

预填充像答题前先通读全文：一个字还没写，重点已经全画好线。

用于聊天和长文问答，决定首字等待，也影响部分成本。

相关概念

KV cache
预填充把整段提示算成 KV 缓存，供后续生成复用。

Inference engine
推理引擎负责调度预填充和逐词生成两阶段。

Context-window
上下文越长，预填充要处理的内容越多。