用当前策略采样并更新同一策略的强化学习方法。
同策略学习像棋手复盘自己这盘棋:哪步臭就改哪步,不照搬旁桌。
用于策略梯度、PPO,更新稳,但更费样本。
RL同策略学习是强化学习中更新策略的一类方法。
Off-policy Learning两者核心区别,是数据是否来自当前策略。
Policy Gradient许多策略梯度方法依赖当前策略采样。
PPOPPO 是典型的同策略训练算法。