限制梯度大小,防止训练更新失控。
梯度裁剪像高压锅限压阀:火再旺也先放气,别让参数把锅盖顶飞。
用于 RNN、LLM 训练,压住梯度爆炸,让优化更稳。
Backpropagation反向传播算出梯度,裁剪负责拦住异常大值。
Gradient Descent梯度下降按梯度更新参数,裁剪限制步子过大。
SGDSGD 更新噪声大时,裁剪能减少训练失控。
LSTMLSTM 这类循环模型常用它缓解梯度爆炸。