TensorRTのパフォーマンス測定 - TadaoYamaokaの開発日記

先日試したTensorRTをdlshogiのネットワークの推論で試せるようにしたので、パフォーマンスを測定してみた。

floodgateの棋譜からサンプリングした10万局面の推論時間を測定する。
バッチサイズは128とする。
3回測定して平均をとる。
Windows 10 64bit、GeForce 2080Tiで測定した。環境の詳細は先日の記事を参照。

TensorRT(FP16)が、cuDNN(FP16)よりも約58%速く、最速という結果になった。
TensorRTによる最適化の効果が大きいことがわかった。
数%程度速くなればよいと考えていたので、想定したよりずっと速い。

逆にFP32では、cuDNN(FP32)の方が少し速く、最適化の効果がでていない。
FP16だとTensorコアが使用されるので、TensorRTはTensorコアに最適化されているのかもしれない。

TensorRTでは最適化プロファイルを使用してモデルをビルドすると、ビルドに時間がかかる。
ビルド時間は、setMaxWorkspaceSizeで設定するワークスペースサイズによって異なった。

ワークスペースサイズを増やすほど、ビルドに時間がかかる。
特にFP16の場合に時間がかかる。
ワークスペースサイズを増やすことで推論時間は変わらなかった。

適切なサイズをどのように決めればよいか不明だが、ビルド時間を考慮すると大きくしすぎない方が良さそうだ。

TensorRTは最適化のプロセスでレイヤー融合を行うが、モデルをONNXにする前にレイヤー融合を行った場合どうなるか測定してみた。

条件	時間
TensorRT(FP16、レイヤー融合)	2826 ms

事前にレイヤー融合を行っても効果はなかった。

FP16モードにした場合も、バインドする入出力のメモリはFP32にする必要があった。
cuDNNの実装ではホスト側でFP32とFP16の変換を行っていたが、TensorRTではGPU側で暗黙に変換を行うようである。

TensorRTをFP16モードで使用すると推論がcuDNNを使用するよりも大幅に速くなる。
効果があることが分かったので、dlshogiに組み込む予定である。

Linux(Ubuntu18.04)上で、Tesla V100でも測定を行った。

条件	時間
TensorRT(FP32,V100)	10622 ms
TensorRT(FP16,V100)	2324 ms

FP16では、Windows上で2080Tiで実行した場合よりも19%高速という結果になった。
V100のTensorコアは 640個で、2080Tiは544個のため、その差(18%)が表れている。