読者です 読者をやめる 読者になる 読者になる

TadaoYamaokaの日記

山岡忠夫 Home で公開しているプログラムの開発ネタを中心に書いていきます。

強化学習の教科書

昨日の日記で強化学習の勉強を始めたと書いたが、教科書についてまとめておく。

購入した教科書は、昨日の日記で取り上げた

と、TD学習を発案した著者による

この本である。

強化学習を体系的に記述してあり、本格的に学ぶなら後者の本がよいと思う。ただし、内容は難しい。
前者の本はサンプルプログラムも付いているので、動かしながら学べるのが良いと思う。

ちなみに、後者の本は翻訳本で、原書のSecond EditionのDraftのPDFがオンラインで読める。
Sutton & Barto Book: Reinforcement Learning: An Introduction

翻訳本の元の版の内容を全て含んでいる。
英語での表現を知りたければ翻訳本と対比してみるとよいと思う。

Second Editionでは、AlphaGoのRL policy networkの学習で用いられた手法である、REINFORCEアルゴリズムについても「13.4 REINFORCE with Baseline」で取り上げられている。