TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

RTX4090とA100のNPSの比較

今年の世界コンピュータ将棋選手権で、dlshogiチームはA100x8のサーバを9台使用してMultiPonderによるクラスタ構成を採用していた。
9台使用していても、Ponderにヒットした1台しか実際の指し手には影響せず、多くのケースではMultiPonderなしの通常のPonderと結果は変わらない。

準優勝のやねうら王チームは、vast.aiというサービスを利用して、RTX4090x9のマシンを使用していた。
RTX 4090は、A100よりも新しい世代のチップで推論性能は、dlshogiチームのA100よりも高かった。
参考:第33回世界コンピュータ将棋選手権準優勝記 | やねうら王 公式サイト

カタログスペックで比較すると、RTX 4090の方がスペックが上であることがわかる。

CUDAコア数 Tensorコア世代 Tensorコア数
RTX 4090 16384 第4世代 512
A100 6912 第3世代 432

RTX4090とA100のNPSの比較

昨年優勝した際に頂いたドスパラポイントでRTX 4090を購入したので、RTX 4090とA100のNPSを比較してみた。

測定条件
  • 30ブロック384フィルタのモデル
  • 1GPU
  • バッチサイズ128
  • スレッド数2
  • 初期局面で10秒思考
測定結果
NPS
RTX 4090 19976
A100 15257

RTX 4090の方が、NPSが1.3倍ほど高い。
なお、モデルサイズが大きい場合、この差はさらに開く傾向がある。

まとめ

A100は2年前のGPUであり、コンシューマ向けのRTX4090の方が性能が上である。
今年の世界コンピュータ将棋選手権では、dlshogiチームはハードウェアスペックではやねうら王チームよりも低かったことが大会後の情報で判明した。
それでも優勝できたのはモデル精度の違いと、それを元にした定跡作成の違いであったと考える。