TD-Gammon — 时序差分双陆棋程序

事实

用时序差分自我对弈训练的双陆棋神经网络。

人话

TD-Gammon 像游戏开影分身：自己陪自己刷局，每走一步就打分，不等终局才复盘。

证明自我对弈能练策略，影响后来的游戏 AI。

相关概念

TD Learning
TD-Gammon 用 TD 误差更新局面价值评估。

Reinforcement Learning
TD-Gammon 是强化学习早期出圈的成功案例。

Neural Network
TD-Gammon 用神经网络估计棋盘局面的胜率。

AlphaZero
AlphaZero 延续了自我对弈强化学习的路线。