TadaoYamaokaの日記

山岡忠夫Homeで公開しているプログラムの開発ネタを中心に書いていきます。

2020-04-28から1日間の記事一覧

usiToCsa.rbのdlshogi対応

世界コンピュータ将棋オンライン大会の対戦環境をテストしていて、クライアントの将棋所からssh経由でサーバでdlshogiを実行していたが、回線が不安定なため途中で切れることがあったので、サーバから直接接続する方式に変更することにした。dlshogiは標準入…

Agent57: Outperforming the Atari Human Benchmarkを読む その9

付録B B.外発的-内発的分解 内発的に動機付けられたエージェントの場合、報酬関数は、固有の報酬と外部の報酬の線形結合である。 価値の反復スキームを使用して、最適な状態行動価値関数を計算できる。 ここで、は任意に初期化できる。 ここで、別々の内発的…