用时序差分自我对弈训练的双陆棋神经网络。
TD-Gammon 像游戏开影分身:自己陪自己刷局,每走一步就打分,不等终局才复盘。
证明自我对弈能练策略,影响后来的游戏 AI。
TD Learning
TD-Gammon 用 TD 误差更新局面价值评估。
Reinforcement Learning
TD-Gammon 是强化学习早期出圈的成功案例。
Neural Network
TD-Gammon 用神经网络估计棋盘局面的胜率。
AlphaZero
AlphaZero 延续了自我对弈强化学习的路线。