AI Rookies

NAG — Nesterov 加速梯度

事实

先在前瞻位置计算梯度的动量优化算法。

人话

NAG像老司机过弯:先看弯后路况再打方向,不等漂出去才补救。

用于加速梯度下降,比普通动量更会提前修正。

相关概念

Momentum
NAG 是动量法的前瞻版,先预判再修正。

SGD
它常作为 SGD 的加速更新规则使用。

Gradient Descent
它改造梯度下降,让收敛更快更稳。

Adam
Adam 也用动量思想,但会自适应调学习率。