AI Rookies

Gradient Clipping — 梯度裁剪

事实

限制梯度大小,防止训练更新失控。

人话

梯度裁剪像高压锅限压阀:火再旺也先放气,别让参数把锅盖顶飞。

用于 RNN、LLM 训练,压住梯度爆炸,让优化更稳。

相关概念

Backpropagation
反向传播算出梯度,裁剪负责拦住异常大值。

Gradient Descent
梯度下降按梯度更新参数,裁剪限制步子过大。

SGD
SGD 更新噪声大时,裁剪能减少训练失控。

LSTM
LSTM 这类循环模型常用它缓解梯度爆炸。