TensorRT
前回の記事にも書いたが、dlshogiは、V100のTensorCoreがINT8に対応していないため、INT8対応を行っていなかった。 しかし、AWSのG4インスタンスでは、NVIDIA T4 Tensor Core GPUが利用できるため、INT8に対応することにした。 また、今後クラウドでA100が提…
Turing世代以降のTensorCoreは、INT8に対応している。 GeForce 2080TiでもINT8が利用できるため、試してみた。なお、V100のTensorCoreは、INT8には対応していないため、dlshogiでは、INT8対応は行っていなかったが、AWSのG4インスタンスでは、NVIDIA T4 Tens…
TensorRTがdlshogiのDNNの推論においても効果があることがわかったので、TensorRTをdlshogiに組み込んだ。 Tensorコアを搭載したGPUでは、以前のcuDNN版に比べて推論が大幅に高速化される。 実装 ONNXから読み込んだネットワークのビルドには数十秒近く時間…
先日試したTensorRTをdlshogiのネットワークの推論で試せるようにしたので、パフォーマンスを測定してみた。バッチサイズを可変にして、プロファイル最適化も行った。 測定条件 floodgateの棋譜からサンプリングした10万局面の推論時間を測定する。 バッチサ…
ねね将棋がTensorRTを使用しているということで、dlshogiでもTensorRTが使えないかと思って調べている。 TensorRTのドキュメントを読むと、JetsonやTeslaしか使えないように見えるが、リリースノートにGeForceの記述もあるので、GeForceでも動作するようであ…