将棋でディープラーニングするその31(DNNのスループット)

方策ネットワークを対局中に用いた場合のスループットを計測した。

PUCTアルゴリズムで並列で探索をする場合、複数スレッドからGPUを使用するため、複数スレッドから使用する場合を考慮する。

まず、それぞれのスレッドからDNNを実行した場合について計測した。

測定条件は以下の通り。

測定結果は以下の通りとなった。
f:id:TadaoYamaoka:20170605111559p:plain

複数スレッドから実行するとスレッドが増えるほどスループットが落ちている。
GPUは同時には利用されず、どこかで排他制御されていると思われる。
複数スレッドからの要求をキューにためておいて、1スレッドから利用した方がよいと言える。

次に、1スレッドから利用して、バッチサイズを増やした場合について計測した。
f:id:TadaoYamaoka:20170605111855p:plain

バッチサイズが増えるほど線形にスループットが伸びている。
これは、GPU内で並列化が行われ、バッチサイズによらず実行時間が同じになるためと思われる。

バッチサイズを4にしても、NPSは560程度であり、将棋プログラムのNPSに比べて圧倒的に少ない。
i7 6700K(4コア4GHzのCPU)でやねうら王2017 Early(SSE42)を動かすと、NPSは3,564,673出ている。

Ponanza Chainerが行っていたように、DNNの実行と並列で従来プログラムで探索を行う方が効果的かもしれない。

PUCTアルゴリズムと従来のプログラムを組み合わせるには、以下のような方式が考えられる。

実装が大変そうなのと、期待外れ度を知るのも意味があるので、まずDNNのみを用いてPUCTの実装を試したい。

TadaoYamaokaの開発日記