付録E. 分散設定の実装の詳細
リプレイバッファー
- 固定長の遷移のシーケンスと優先度を格納する。
- 遷移はの形式である。
- このような遷移はタイムステップとも呼ばれ、シーケンスHの長さはトレース長と呼ばれる。
- さらに、リプレイバッファー内の隣接するシーケンスは、リプレイ期間と呼ばれるいくつかのタイムステップでオーバーラップし、シーケンスがエピソードの境界を越えることはない。
- 遷移の各要素について説明する。
- :前回の外発的報酬
- :前回の内発的報酬
- :前回エージェントが行った行動
- :前回のリカレント状態(この場合はLSTMの隠れ状態)
- :現在の環境によって提供される観測
- :エージェントが現在行っている行動
- :現時点でのリカレント状態(この場合はLSTMの隠れ状態)
- :行動を選択する確率
- :マルチアームバンディットアルゴリズム(シーケンス全体で固定)によって各アクターのエピソードの開始時に選択されたペアのインデックス
- :現在の外発的報酬
- :現時点での内発的報酬
- :次回の環境によって提供される観測
- 私たちの実験では、再生期間80のトレース長160または再生期間40のトレース長80を選択する。
- トレードオフの詳細な実験については、(Kapturowski et al., 2018)を参照してほしい。
- 最後に、優先度に関して、優先度指数のシーケンスのTD誤差の最大値と平均値の混合を使用して、Kapturowskiらによって提案された同じ優先順位付けスキームに従った。
アクター
- L個の各アクターは、ラーナーと同じネットワークアーキテクチャを共有するが、重みが異なり、である。
- l番目のアクターは、ラーナーの重みをコピーして、400フレームごとに重みを更新する。
- 各エピソードの初めに、各アクターは、マルチアームバンディットアルゴリズムを介して、ペアのファミリーのペアを表すインデックスjを選択する。
- また、リカレント状態はゼロに初期化される。
- 行動するために、アクターは、で示されるすべての行動の状態行動価値を計算するために、ネットワークでフォワードパスを実行する必要がある。
- これを行うには、ネットワークの入力は次のとおりです。
- :時間tの観測
- :で初期化された、前回の外発的報酬
- :で初期化された、前回の内発的報酬
- :前回の行動、はランダムに初期化される
- :前回のリカレント状態、で初期化される
- :マルチアームバンディットアルゴリズムによって選択されたペアのインデックス(すべてのエピソードで固定)
- 時間tで、l番目のアクターはに関して-greedyに行動する。
- ここで、は]から均一に引き出されたランダムな値であり、はから均一に引き出されたランダムな行動である。
- したがって、に関連する確率は次のとおりである。
- ここでは行動空間の基数で、アタリゲームの場合は18である。
- 次に、アクターは行動を実行し、内発的報酬を計算し、環境は次の観測と外発的報酬を生成する。
- このプロセスは、エピソードの最後まで続く。
- ノイズの値は、Horganらによって確立された同じ式に従って選択される。
- ここで、で、である。
- この実験では、アクターの数をに固定する。
- 最後に、アクターは収集されたデータを優先順位と共にリプレイに送信する。
エバリュエーター
ラーナー
- ラーナーには、それぞれ異なる重みとを持つオンラインネットワークとターゲットネットワークと呼ばれる2つの同一のネットワークが含まれている。
- ターゲットネットワークの重みは、1500の最適化ステップごとにに更新される。
- 私たちの特定のアーキテクチャでは、重みは、同じアーキテクチャを持つ固有の重みと\theta^i]のセットに分解できる。
- 同様に、がある。
- 内発的重みと外発的重みは、変換された独自のリトレース損失によって更新される。
- と\theta^i]は、次の一連の命令を実行することによって更新される。
- 最初に、ラーナーは、サイズがBのバッチの固定長の遷移シーケンスDをリプレイバッファーからサンプリングする。
- 次に、状態行動価値を取得するために、オンラインネットワークと入力を持つターゲットでフォワードパスが実行される。
- 付録Cに示すように、状態行動価値が計算されると、重みと\theta^i]の各セットの変換されたリトレース損失とを簡単に計算できるようになる。 ターゲットポリシーは、内発的状態行動価値関数と外発的状態行動価値関数の混合に変換を適用する場合、に関して貪欲である。
- 変換されたリトレース損失は、Adamオプティマイザーで最適化される。
- NGUと同様に、内発的報酬の計算に必要な逆ダイナミクスモデルとランダムネットワーク蒸留損失は、Adamオプティマイザーで最適化される。
- 最後に、サンプリングされた遷移のシーケンスごとに優先度が計算され、再生バッファーで更新される。