RTX4090とA100のNPSの比較

今年の世界コンピュータ将棋選手権で、dlshogiチームはA100x8のサーバを9台使用してMultiPonderによるクラスタ構成を採用していた。
9台使用していても、Ponderにヒットした1台しか実際の指し手には影響せず、多くのケースではMultiPonderなしの通常のPonderと結果は変わらない。

準優勝のやねうら王チームは、vast.aiというサービスを利用して、RTX4090x9のマシンを使用していた。
RTX 4090は、A100よりも新しい世代のチップで推論性能は、dlshogiチームのA100よりも高かった。
参考：第33回世界コンピュータ将棋選手権準優勝記 | やねうら王公式サイト

カタログスペックで比較すると、RTX 4090の方がスペックが上であることがわかる。

	CUDAコア数	Tensorコア世代	Tensorコア数
RTX 4090	16384	第4世代	512
A100	6912	第3世代	432

昨年優勝した際に頂いたドスパラポイントでRTX 4090を購入したので、RTX 4090とA100のNPSを比較してみた。

測定条件

30ブロック384フィルタのモデル
1GPU
バッチサイズ128
スレッド数2
初期局面で10秒思考

測定結果

	NPS
RTX 4090	19976
A100	15257

RTX 4090の方が、NPSが1.3倍ほど高い。
なお、モデルサイズが大きい場合、この差はさらに開く傾向がある。

まとめ

A100は2年前のGPUであり、コンシューマ向けのRTX4090の方が性能が上である。
今年の世界コンピュータ将棋選手権では、dlshogiチームはハードウェアスペックではやねうら王チームよりも低かったことが大会後の情報で判明した。
それでも優勝できたのはモデル精度の違いと、それを元にした定跡作成の違いであったと考える。