推理时先处理输入并生成 KV 缓存的阶段。
预填充像答题前先通读全文:一个字还没写,重点已经全画好线。
用于聊天和长文问答,决定首字等待,也影响部分成本。
KV cache预填充把整段提示算成 KV 缓存,供后续生成复用。
Inference engine推理引擎负责调度预填充和逐词生成两阶段。
Context-window上下文越长,预填充要处理的内容越多。