昨日の日記で強化学習の勉強を始めたと書いたが、教科書についてまとめておく。
購入した教科書は、昨日の日記で取り上げた
と、TD学習を発案した著者による
この本である。
強化学習を体系的に記述してあり、本格的に学ぶなら後者の本がよいと思う。ただし、内容は難しい。
前者の本はサンプルプログラムも付いているので、動かしながら学べるのが良いと思う。
ちなみに、後者の本は翻訳本で、原書のSecond EditionのDraftのPDFがオンラインで読める。
Sutton & Barto Book: Reinforcement Learning: An Introduction
翻訳本の元の版の内容を全て含んでいる。
英語での表現を知りたければ翻訳本と対比してみるとよいと思う。
Second Editionでは、AlphaGoのRL policy networkの学習で用いられた手法である、REINFORCEアルゴリズムについても「13.4 REINFORCE with Baseline」で取り上げられている。