AdamW — 解耦权重衰减的 Adam 优化器

事实

一种将权重衰减从 Adam 更新中解耦的优化器。

人话

AdamW 像记两本独立账本：一本记学到的本事、一本记该减的体重，各算各的、互不串账。

常用于训练和微调，让收敛更稳、过拟合更少。

相关概念

Adam
AdamW 保留 Adam 的自适应更新，但修正权重衰减方式。

Weight Decay
AdamW 将权重衰减从梯度更新中单独拆出来。

Optimization
AdamW 是训练神经网络时常用的优化器之一。

Fine-tuning
微调大模型时，AdamW 常被作为默认优化器。