模型更新后在旧能力上变差的现象。
模型回归像补作业:新题刚会做,期中错题又忘了怎么解。
它要求上线前跑旧题,防止新模型把老本事改坏。
LLMOpsLLMOps 通过版本监控发现模型能力倒退。
Third-party AI evaluation第三方评测能揭出团队自测漏掉的退步。
AI QA TestingAI QA Testing 用旧用例拦截上线前退化。
Fine-tuningFine-tuning 可能提升新能力,也弄坏旧能力。