将棋でディープラーニングするその30(探索アルゴリズム)

まだ方策ネットワークもバリューネットワークも精度が低いが、精度を上げるのは一旦保留して、対局時の方法について検討する。

以前に考察したように、将棋は読みが重要なゲームであるため、探索を用いず方策ネットワークのみで指しても強くならないと思われる。

AlphaGoでは、モンテカルロ木探索をベースにして、方策ネットワークとバリューネットワークをうまく組み合わせている。

UCTアルゴリズム

代表的なモンテカルロ木探索のアルゴリズムであるUCTアルゴリズムでは、以下のように探索を行う。
毎回ルートノードからUCBが大きいノード（後手では小さいノード）を選択しながらツリーを下っていく。
末端ノードに到達したら、そこからrollout policyに従い終局までプレイする（これをプレイアウトと言う）。
プレイアウトの結果を、末端ノードからツリーを逆に上りながら、ノードの報酬として記録する（これをバックアップと言う）。
末端ノードは一定回数を訪問したら、合法手でノードを展開する。
最終的にルートの子ノードで最も訪問した手を選択する。
f:id:TadaoYamaoka:20170603234401p:plain:w200

UCBは、以下の式で計算される。
$\displaystyle \overline{x_j} + \sqrt{\frac{2\log n}{n_j}}$
$\overline{x_j}$ は期待報酬、 $n$ は親が同じノードの訪問数の合計、 $n_j$ はノードの訪問数

この式は、(期待値)+(バイアス項)という構成になっており、期待報酬が高いところを選択するが、訪問数が少ないノードを優遇するという意味を持つ。

PUCTアルゴリズム

AlphaGoでは、UCTアルゴリズムの代わりに方策ネットワークとバリューネットワークを使ったPUCTアルゴリズム *1を採用している。
PUCTアルゴリズムでのノード選択の基準は、以下の式で計算される。
$\displaystyle \begin{equation} Q(s_t,a)+u(s_t,a) \end{equation}$

$Q(s_t,a)$ はバリューネットワークの出力とプレイアウトの結果の平均で、期待報酬を表す。
$u(s,a)$ は、以下の式で表される。
$\displaystyle u(s,a) = c_{puct} p(s,a) \frac{\sqrt{\sum_b N_r(s,b)}}{1 + N_r(s,a)}$
$c_{puct}$ は定数、 $p(s,a)$ は方策ネットワークの出力を事前確率として使用する。
$N_r(s,a)$ はノードaの訪問数を表す。
$\sum_b N_r(s,b)$ は親が同じノードの訪問数になる。