今年の世界コンピュータ将棋選手権で、dlshogiチームはA100x8のサーバを9台使用してMultiPonderによるクラスタ構成を採用していた。
9台使用していても、Ponderにヒットした1台しか実際の指し手には影響せず、多くのケースではMultiPonderなしの通常のPonderと結果は変わらない。
準優勝のやねうら王チームは、vast.aiというサービスを利用して、RTX4090x9のマシンを使用していた。
RTX 4090は、A100よりも新しい世代のチップで推論性能は、dlshogiチームのA100よりも高かった。
参考:第33回世界コンピュータ将棋選手権準優勝記 | やねうら王 公式サイト
カタログスペックで比較すると、RTX 4090の方がスペックが上であることがわかる。
CUDAコア数 | Tensorコア世代 | Tensorコア数 | |
---|---|---|---|
RTX 4090 | 16384 | 第4世代 | 512 |
A100 | 6912 | 第3世代 | 432 |
RTX4090とA100のNPSの比較
昨年優勝した際に頂いたドスパラポイントでRTX 4090を購入したので、RTX 4090とA100のNPSを比較してみた。
測定条件
- 30ブロック384フィルタのモデル
- 1GPU
- バッチサイズ128
- スレッド数2
- 初期局面で10秒思考
測定結果
NPS | |
---|---|
RTX 4090 | 19976 |
A100 | 15257 |
RTX 4090の方が、NPSが1.3倍ほど高い。
なお、モデルサイズが大きい場合、この差はさらに開く傾向がある。
まとめ
A100は2年前のGPUであり、コンシューマ向けのRTX4090の方が性能が上である。
今年の世界コンピュータ将棋選手権では、dlshogiチームはハードウェアスペックではやねうら王チームよりも低かったことが大会後の情報で判明した。
それでも優勝できたのはモデル精度の違いと、それを元にした定跡作成の違いであったと考える。