NAG — Nesterov 加速梯度

事实

先在前瞻位置计算梯度的动量优化算法。

人话

NAG像老司机过弯：先看弯后路况再打方向，不等漂出去才补救。

用于加速梯度下降，比普通动量更会提前修正。

相关概念

Momentum
NAG 是动量法的前瞻版，先预判再修正。

SGD
它常作为 SGD 的加速更新规则使用。

Gradient Descent
它改造梯度下降，让收敛更快更稳。

Adam
Adam 也用动量思想，但会自适应调学习率。