TadaoYamaokaの日記

山岡忠夫Homeで公開しているプログラムの開発ネタを中心に書いていきます。

ベイズ最適化

PUCTの定数のベイズ最適化

AlphaZeroの論文では、PUCTの定数を以下の式で、親ノードの訪問回数に応じて動的に調整を行っている。 この式で現れる定数とは、疑似コードでは以下のように定義されている。 # UCB formula self.pb_c_base = 19652 self.pb_c_init = 1.25 私が実験しているd…