On-Policy Learning — 同策略学习

事实

用当前策略采样并更新同一策略的强化学习方法。

人话

同策略学习像棋手复盘自己这盘棋：哪步臭就改哪步，不照搬旁桌。

用于策略梯度、PPO，更新稳，但更费样本。

相关概念

RL
同策略学习是强化学习中更新策略的一类方法。

Off-policy Learning
两者核心区别，是数据是否来自当前策略。

Policy Gradient
许多策略梯度方法依赖当前策略采样。

PPO
PPO 是典型的同策略训练算法。