付録G. ハイパーパラメータ
G.1. との値
- セットの選択の間の直感は次のとおりです。
- については、非常に活用的である方策と探索的である方策を奨励したいので、図11(a)に示すようにシグモイドを選択する。
- については、活用方策(の値が小さい)には長期的な視野(の値が高い)、探索的方策(の値が高い)には短期的な視野(の値が小さい)を考慮する。
- これは主に、外発的報酬の希薄さと内発的報酬の密集した性質によるものである。
- これは、図11(b)で行われた選択の動機になる。
図11. N = 32とβ= 0.3のとの値
- (a) が取る値
- (b) が取る値
G.2. Atariの前処理ハイパーパラメータ
- この節では、Arcade学習環境から受け取った環境フレームを前処理するために使用するハイパーパラメータについて詳しく説明する。
- 表2で、そのようなハイパーパラメータについて詳しく説明する。
- ALEはhttps://github.com/mgbellemare/Arcade-Learning-Environmentで公開されている。
G.3. 使用されたハイパーパラメータ
- すべての実験で使用したハイパーパラメータは、NGUのハイパーパラメータとまったく同じである。
- ただし、完全を期すため、表3で詳しく説明する。
- また、ウィンドウ化されたUCBバンディットに使用するハイパーパラメータも含める。
表3. Agent57のハイパーパラメータ
G.4. ハイパーパラメータ探索範囲
- Agent57のハイパーパラメータを選択するために使用した範囲を表4に示す。
表4. ハイパーパラメータのスイープ範囲