先在前瞻位置计算梯度的动量优化算法。
NAG像老司机过弯:先看弯后路况再打方向,不等漂出去才补救。
用于加速梯度下降,比普通动量更会提前修正。
MomentumNAG 是动量法的前瞻版,先预判再修正。
SGD它常作为 SGD 的加速更新规则使用。
Gradient Descent它改造梯度下降,让收敛更快更稳。
AdamAdam 也用动量思想,但会自适应调学习率。