强化学习中记录近期状态动作信用的机制。
资格迹像接力赛记功:冲线的人亮眼,前几棒也按近远分功劳。
用于 TD 和 Actor-Critic,让延迟奖励更快回传。
TD Learning资格迹让 TD 学习能把奖励分给近期步骤。
RL资格迹帮助强化学习处理延迟奖励问题。
Actor-CriticActor-Critic 可用资格迹同时更新策略与价值。