TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

Agent57: Outperforming the Atari Human Benchmarkを読む その14

付録G. ハイパーパラメータ

G.1. \beta\gammaの値

  • セット\{(\beta_j, \gamma_j)\}_{j=0}^{N-1}の選択の間の直感は次のとおりです。
  • \beta_jについては、非常に活用的である方策と探索的である方策を奨励したいので、図11(a)に示すようにシグモイドを選択する。
  • \gamma_jについては、活用方策(\beta_jの値が小さい)には長期的な視野(\gamma_jの値が高い)、探索的方策(\beta_jの値が高い)には短期的な視野(\gamma_jの値が小さい)を考慮する。
  • これは主に、外発的報酬の希薄さと内発的報酬の密集した性質によるものである。
  • これは、図11(b)で行われた選択の動機になる。
図11. N = 32とβ= 0.3の\{\beta_i\}_{i=0}^{N-1}\{\gamma_i\}_{i=0}^{N-1}の値
  • (a) \{\beta_i\}_{i=0}^{N-1}が取る値

f:id:TadaoYamaoka:20200525092616p:plain

  • (b) \{\gamma_i\}_{i=0}^{N-1}が取る値

f:id:TadaoYamaoka:20200525092624p:plain

\displaystyle
\beta_j =
\left\{
	\begin{array}{ll}
		0  & \mbox{if }\ j = 0 \\
		\beta=0.3  & \mbox{if }\ j = N-1 \\
		\beta \cdot \sigma(10\frac{2j - (N-2)}{N-2}) & otherwise \\
	\end{array}
\right.

\displaystyle
\quad\gamma_j =
\left\{
	\begin{array}{ll}
		\gamma_0  & \mbox{if }\ j = 0 \\
		\gamma_1 + (\gamma_0-\gamma_1)\sigma(10\frac{2i - 6}{6}) & \mbox{if }\ j\in\{1, \dots, 6\} \\
		\gamma_1  & \mbox{if }\ j = 7 \\
		1 - \exp\bigg(\frac{(N-9)\log(1-\gamma_{1}) + (j-8)\log(1-\gamma_{2})}{N-9}\bigg) & otherwise \\
	\end{array}
\right.

G.2. Atariの前処理ハイパーパラメータ

  • この節では、Arcade学習環境から受け取った環境フレームを前処理するために使用するハイパーパラメータについて詳しく説明する。
  • 表2で、そのようなハイパーパラメータについて詳しく説明する。
  • ALEはhttps://github.com/mgbellemare/Arcade-Learning-Environmentで公開されている。
表2. Atariの前処理ハイパーパラメータ
Hyperparameter Value
Max episode length 30 min
Num. action repeats 4
Num. stacked frames 1
Zero discount on life loss false
Random noops range 30
Sticky actions false
Frames max pooled 3 and 4
Grayscaled/RGB Grayscaled
Action set Full

G.3. 使用されたハイパーパラメータ

  • すべての実験で使用したハイパーパラメータは、NGUのハイパーパラメータとまったく同じである。
  • ただし、完全を期すため、表3で詳しく説明する。
  • また、ウィンドウ化されたUCBバンディットに使用するハイパーパラメータも含める。
表3. Agent57のハイパーパラメータ

f:id:TadaoYamaoka:20200525094616p:plain

G.4. ハイパーパラメータ探索範囲

  • Agent57のハイパーパラメータを選択するために使用した範囲を表4に示す。
表4. ハイパーパラメータのスイープ範囲

f:id:TadaoYamaoka:20200525094746p:plain