Agent57: Outperforming the Atari Human Benchmarkを読むその１４

付録G. ハイパーパラメータ

G.1. $\beta$ と $\gamma$ の値

セット $\{(\beta_j, \gamma_j)\}_{j=0}^{N-1}$ の選択の間の直感は次のとおりです。
$\beta_j$ については、非常に活用的である方策と探索的である方策を奨励したいので、図11(a)に示すようにシグモイドを選択する。
$\gamma_j$ については、活用方策（ $\beta_j$ の値が小さい）には長期的な視野（ $\gamma_j$ の値が高い）、探索的方策（ $\beta_j$ の値が高い）には短期的な視野（ $\gamma_j$ の値が小さい）を考慮する。
これは主に、外発的報酬の希薄さと内発的報酬の密集した性質によるものである。
これは、図11(b)で行われた選択の動機になる。

図11. N = 32とβ= 0.3の $\{\beta_i\}_{i=0}^{N-1}$ と $\{\gamma_i\}_{i=0}^{N-1}$ の値

(a) $\{\beta_i\}_{i=0}^{N-1}$ が取る値

f:id:TadaoYamaoka:20200525092616p:plain

(b) $\{\gamma_i\}_{i=0}^{N-1}$ が取る値

f:id:TadaoYamaoka:20200525092624p:plain

$\displaystyle \beta_j = \left\{ \begin{array}{ll} 0 & \mbox{if }\ j = 0 \\ \beta=0.3 & \mbox{if }\ j = N-1 \\ \beta \cdot \sigma(10\frac{2j - (N-2)}{N-2}) & otherwise \\ \end{array} \right.$

$\displaystyle \quad\gamma_j = \left\{ \begin{array}{ll} \gamma_0 & \mbox{if }\ j = 0 \\ \gamma_1 + (\gamma_0-\gamma_1)\sigma(10\frac{2i - 6}{6}) & \mbox{if }\ j\in\{1, \dots, 6\} \\ \gamma_1 & \mbox{if }\ j = 7 \\ 1 - \exp\bigg(\frac{(N-9)\log(1-\gamma_{1}) + (j-8)\log(1-\gamma_{2})}{N-9}\bigg) & otherwise \\ \end{array} \right.$

G.2. Atariの前処理ハイパーパラメータ

この節では、Arcade学習環境から受け取った環境フレームを前処理するために使用するハイパーパラメータについて詳しく説明する。
表2で、そのようなハイパーパラメータについて詳しく説明する。
ALEはhttps://github.com/mgbellemare/Arcade-Learning-Environmentで公開されている。

表2. Atariの前処理ハイパーパラメータ

Hyperparameter	Value
Max episode length	30 min
Num. action repeats	4
Num. stacked frames	1
Zero discount on life loss	false
Random noops range	30
Sticky actions	false
Frames max pooled	3 and 4
Grayscaled/RGB	Grayscaled
Action set	Full