一种将权重衰减从 Adam 更新中解耦的优化器。
AdamW 像记两本独立账本:一本记学到的本事、一本记该减的体重,各算各的、互不串账。
常用于训练和微调,让收敛更稳、过拟合更少。
AdamAdamW 保留 Adam 的自适应更新,但修正权重衰减方式。
Weight DecayAdamW 将权重衰减从梯度更新中单独拆出来。
OptimizationAdamW 是训练神经网络时常用的优化器之一。
Fine-tuning微调大模型时,AdamW 常被作为默认优化器。