先日試したTensorRTをdlshogiのネットワークの推論で試せるようにしたので、パフォーマンスを測定してみた。バッチサイズを可変にして、プロファイル最適化も行った。 測定条件 floodgateの棋譜からサンプリングした10万局面の推論時間を測定する。 バッチサ…
状態行動価値関数のパラメーター化 まず、「ランダムコイン」と呼ばれるミニマリズムグリッドワールド環境に対する状態行動価値関数のパラメーター化の影響を評価する。 これは、サイズが15×15の空の部屋で構成され、各エピソードの開始時にコインとエージェ…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。