TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

dlshogi(第2回世界将棋AI電竜戦エキシビジョンバージョン)のWindows版ビルド済みファイル公開

dlshogi(第2回世界将棋AI電竜戦エキシビジョンバージョン)のWindows版ビルド済みファイルを公開します。

モデルファイル

モデルファイルは別のzipファイル(model-dr2_exhi.zip)になっています。
ダウンロード前に、下記のライセンスを参照してください。

ダウンロードしたモデルファイルを使用するにはエンジン設定で、モデルファイルのパスの設定が必要です。
DNN_Modelに解凍したモデルファイル(model-dr2_exhi.onnx)のパスを設定してください。

モデルファイルのニューラルネットワークは15ブロックのResNetになっているため、以前のバージョン(10ブロックResNet)よりNPSが低下します。
GPUの性能によっては、同一の時間での対局で弱くなる場合があります。

倍精度バージョンの追加

1千万ノード以上探索すると、floatの桁落ちによる誤差により評価値の精度が落ちるため、今までのバージョンは長時間の検討には不向きでした。
そのため、検討用に倍精度浮動小数点数でビルドしたバイナリを追加しました。

長時間検討する場合は、ファイル名に「_double」が付く.exeファイルを使用してください。

倍精度バージョンは、メモリ使用量が増えます。
メモリ使用量の目安は、以下の通りです。

バージョン ノード数 メモリ使用量
通常バージョン 1000万ノード 18.2GB
倍精度バージョン 1000万ノード 23.3GB

GPU(RTX 3090)1枚で1千万ノード以上探索するには、5分以上かかります。
長時間検討しない場合や、メモリが少ないマシンでは通常バージョンを使用してください。

なお、1千万ノード以上探索する場合は、UCT_NodeLimitの値を増やす必要があります。

USIオプション追加

読み筋(PV)上に詰みがないかチェックするオプションを追加しました。
頓死をある程度防ぐことができます。
有効にするには、PV_Mate_Search_Threadsを1以上に設定してください。

ただし、CPUコアが余っていないとかえって弱くなる場合があります。

モデル別の探索パラメータの設定

モデルによって最適な探索パラメータが異なるため、探索パラメータのデフォルト値をモデルファイルのパスに拡張子「.ini」を付けたファイルで設定できるようにしました。

USIオプションがデフォルト値から変更されている場合は、変更した値の方が使用されます。
将棋所だと現在の値がデフォルト値かが確認できないため、心配な場合はエンジンの設定を一旦削除して、登録からやり直すとよいです。

.iniファイルには、

オプション名=値

を行区切りで記述します。
※=の前後にスペースは記述しません。

設定例:

C_init=100
C_base=20000
C_fpu_reduction=10
C_init_root=200
C_base_root=21000
Softmax_Temperature=100

モデルファイルのzipには、.iniを含んでいますので、モデルファイル(.onnx)と同一フォルダに配置してください。

モデルファイルのライセンス

モデルファイルを公開してしまうと、大会で不利になってしまうため、モデルファイルだけライセンスを制限します。
使用するには、以下のライセンスに同意が必要です。

1. 本モデルファイルの著作権者は山岡忠夫に帰属します。

2. 私的使用の範囲内で、本モデルファイルを無料で使用できます。

3. コンピュータ将棋の大会向けに本モデルを使用する場合、
    ・モデル学習用の棋譜生成
    ・勝率測定
    を目的とする場合のみ使用を許可します。

    以下は、許可しません。
    ・定跡生成に使用すること
    ・本モデルファイルを直接対局に使用すること
    ・本モデルファイルに追加学習すること
    ・本モデルファイルのパラメータを転用すること

4. リバースエンジニアリング、改変、再配布は禁止します。

ライセンスを確認しているかを担保するため、モデルファイルのzipにはパスワードをかけています。
「dlshogi-dr2_exhi」で解凍できます(※このパスワードは、他には転記しないでください)。

※2022/1/23追記
営利目的(本モデルを使って評価値や候補手を放送して広告収入を得るなど)は許可していませんので、注意喚起します。

最新のモデルファイルは、棋神アナリティクスでご利用いただけます。

電竜戦長時間マッチ「水匠 vs dlshogi」

明日8/15(日) 17:00から、私の開発した「dlshogi」と電竜戦TSEC優勝ソフト「水匠」との長時間マッチを行います。
対局の様子は、YouTubeニコニコ動画で生配信されます。
先手、後手入れ替えて計2局行います。
第1局は、阿部健治郎七段と佐々木勇気七段のダブル解説、そしてゲスト解説に渡辺明名人をお呼びしています。

予告動画


電竜戦長時間マッチ「水匠 vs dlshogi」第1局

youtu.be

電竜戦長時間マッチ「水匠 vs dlshogi」第2局

youtu.be

ソフトの特徴

従来型将棋AI

「水匠」は、第2回電竜戦TSECで優勝した現在最強の将棋AIです。

  • 探索部

やねうら王ライブラリを使用しており、探索はαβ法を基本として、チェスのStockfishを参考に開発されています。
αβ法ベースの探索は、非常に長い歴史があり1940年代(正確にはミニマックス法、αβ法は1950年代)より改良が続けられています。

  • 評価関数

評価関数には、CPUのみで処理できるニューラルネットワーク(NNUE)を使用しています。
入力特徴量に2駒関係を使った4層のニューラルネットワークで、局面単位に低レイテンシで処理ができることが特徴です。

ディープラーニング

一方「dlshogi」は、従来の将棋AIとは異なるディープラーニングを使用した将棋AIになります。
近年急速に強くなっており、第1回電竜戦でGCTが優勝し、dlshogiが第2回電竜戦TSECのB級で優勝しています。

従来のAIと大きく異なる特徴としては、盤面を画像として入力して指し手を予測する点です(正確には精度を上げるため利きなどの情報も入力しています)。
特に将棋のルールを実装することなく、floodgateの上位ソフトの指し手を、いっさい探索を行わず50%以上の精度で予測できます。
ニューラルネットワークには、畳み込みニューラルネットワークという画像認識で使用されるモデルを使用します。
モデルサイズは、15ブロック(30層)のResNetという深いニューラルネットワークを使用します(最新dlshogiの場合。囲碁では40ブロックとかもっと大きい)。
計算量が多いため、GPUを使用することが前提になっています。

ただし、これだけでは終盤の細い読みが必要になる局面に弱いため、モンテカルロ木探索という探索を組み合わせて動作します。
モンテカルロ木探索は、コンピュータ囲碁で開発された方法で比較的新しい方法(2000年代後半)になります。
ディープラーニングモンテカルロ木探索の組み合わせは、AlphaGoがコンピュータ囲碁で用いて、棋力が飛躍的に向上しました。

  • 探索部

Stockfish系の将棋AIでは、静止探索やキラーヒューリスティックといった、将棋において経験的に効果のあるヒューリスティックを用いて探索効率を上げていますが、モンテカルロ木探索は統計的な手法が用いられておりヒューリスティックがありません。
ヒューリスティックに相当する部分は、ディープラーニングによる指し手の予測(ポリシーネットワーク)が担っています。
ヒューリスティックを用いることで探索の効率を上げることができますが、十分に学習されたポリシーネットワークの方が良いパフォーマンスになります。
ヒューリスティックがない分、モンテカルロ木探索の探索部の実装はシンプルです。

dlshogiの強さ

floodgateのレーティングは4500を超えており、最上位です。
第2回電竜戦TSECのB級で優勝時点からは、追加学習を行ってR+40くらいになっています。

現在の精度は、GCTのノートブックで使用しているテスト局面(2008年~2019年のfloodgateのR3500以上の棋譜)を使用した場合、

バージョン 方策(指し手)一致率 価値(勝敗)一致率
GCT電竜 0.46163575 0.73494528
dlshogi with GCT 0.48964297 0.75278556
dlshogi 第2回TSCE時点 0.51964970 0.76499052
dlshogi 最新 0.52322504 0.76564239

と、着実に精度が向上しています。

まとめ

水匠の方も追加学習を行っていると思うので、明日の対局はどっちが勝つかは全く分からないです。
従来型とディープラーニングが、ちょうど同じくらい強さになった絶妙なタイミングなので、どっちが勝つか対局を楽しみにしてください。

内心では勝敗よりも長時間でちゃんと動くかが一番心配です。。。

AWS inf1 インスタンスで推論を行う その3

前回、neuronコアを複数使用して推論を行うことを試した。
今回は、推論速度の測定を行った。

参考にしたいのは、dlshogiでの推論速度であるため、C++のdlshogiの推論部分に組み込んで、どれくらいのNPSがでるのかを確認した。

C++での推論の実装方法

C++でneuronコアを使用するには、LibTorchを使用する方法が提供されている。
LibTorch C++ Tutorial — AWS Neuron documentation

公式のLibTorchのチュートリアルのsetup.shを確認すると、
CPU版のLibTorchを使用して、Pythonのtorch-neuronに含まれるlibneuron_op.soをリンクすることで、LibTorchでneuronコアを使用できるようにしている。

setup.shから必要な部分を抜き出して実行してもよいが、今回は一旦チュートリアルのsetup.shを実行して、そこから必要なファイルをMakefileから使用するようにした。

チュートリアルのビルド

公式のページの手順の通り、実行する。

$ wget https://awsdocs-neuron.readthedocs-hosted.com/en/latest/_downloads/172f30d74345f2994f0bb5536f7dc650/libtorch_demo.tar.gz
$ tar xvf libtorch_demo.tar.gz
$ cd libtorch_demo
$ chmod +x setup.sh && ./setup.sh

dlshogiのビルドには必要ないが、チュートリアルのビルドにはRustが必要なため、事前にインストールしておく必要がある。

$ sudo apt install -y cargo

実行が成功すると、
/home/ubuntu/libtorch_demo/libtorch/lib
に必要なファイルがコピーされる。

ソース修正

dlshogiのソースをLibTorchで推論できるように修正した。
修正したソースは、feature/libtorchブランチにプッシュしている。
GitHub - TadaoYamaoka/DeepLearningShogi at feature/libtorch

ビルド

チュートリアルはCMakeでビルドするようになっているが、dlshogiではmakeを使用しているため、チュートリアルのcmakeで作成されたmakeファイル(build.makeとlink.txt)を参考にMakefileを作成した。
完全に理解していないが、リンカのオプションで、LibTorchの.soをlibneuron_op.soに置き換えることを行っていそうである。

CC = g++
MATE_SEARCH_DEPTH = 5
CFLAGS = -std=c++17 -Wextra -Ofast -MMD -MP -fopenmp -DLIBTORCH -DPV_MATE_SEARCH -DWIN_TYPE_DOUBLE -DMATE_SEARCH_DEPTH=$(MATE_SEARCH_DEPTH) -DTHREAD_POOL -DNDEBUG -DHAVE_SSE4 -DHAVE_SSE42 -DHAVE_BMI2 -msse4.2 -mbmi2 -DHAVE_AVX2 -mavx2 -D_GLIBCXX_USE_CXX11_ABI=0
LDFLAGS = -flto -Wl,-rpath,/home/ubuntu/libtorch_demo/libtorch/lib /home/ubuntu/libtorch_demo/libtorch/lib/libtorch.so /home/ubuntu/libtorch_demo/libtorch/lib/libc10.so /home/ubuntu/libtorch_demo/libtorch/lib/libneuron_op.so -Wl,--no-as-needed,"/home/ubuntu/libtorch_demo/libtorch/lib/libtorch_cpu.so" -Wl,--as-needed /home/ubuntu/libtorch_demo/libtorch/lib/libc10.so -lpthread -Wl,--no-as-needed,"/home/ubuntu/libtorch_demo/libtorch/lib/libtorch.so" -Wl,--as-needed
INCLUDE = -I../usi_libtorch -I../usi -I../cppshogi -I../cppshogi -I/home/ubuntu/libtorch_demo/libtorch/include -I/home/ubuntu/libtorch_demo/libtorch/include/torch/csrc/api/include
LIB = -L/home/ubuntu/libtorch_demo/libtorch/lib

target = bin/usi
target_make_book = bin/make_book
sources = nn_libtorch.cpp
usi_sources = main.cpp dfpn.cpp Message.cpp UctSearch.cpp Node.cpp PvMateSearch.cpp
cppshogi_sources = bitboard.cpp book.cpp common.cpp cppshogi.cpp generateMoves.cpp hand.cpp init.cpp move.cpp mt64bit.cpp position.cpp search.cpp square.cpp usi.cpp
objects = $(addprefix obj/, $(sources:.cpp=.o))
usi_objects = $(addprefix obj/, $(usi_sources:.cpp=.o))
cppshogi_objects = $(addprefix obj/, $(cppshogi_sources:.cpp=.o))

$(target): $(objects) $(usi_objects) $(cppshogi_objects)
	@[ -d bin ] || mkdir -p bin
	$(CC) -o $@ $^ $(LIB) $(LDFLAGS) $(CFLAGS)

obj/%.o: %.cpp
	@[ -d obj ] || mkdir -p obj
	$(CC) $(CFLAGS) $(INCLUDE) -o $@ -c $<

obj/%.o: ../usi/%.cpp
	@[ -d obj ] || mkdir -p obj
	$(CC) $(CFLAGS) $(INCLUDE) -o $@ -c $<

obj/%.o: ../cppshogi/%.cpp
	@[ -d obj ] || mkdir -p obj
	$(CC) $(CFLAGS) $(INCLUDE) -o $@ -c $<

all: $(target)

clean:
	rm -f $(objects) $(cppshogi_objects) $(target)

$(target_make_book): $(objects) $(cppshogi_objects)
	@[ -d bin ] || mkdir -p bin
	$(CC) -o $@ $^ $(LIB) $(LDFLAGS) $(CFLAGS)

make_book: CFLAGS += -DMAKE_BOOK -DWIN_TYPE_DOUBLE
make_book: $(target_make_book)

測定

10ブロックのモデル

10ブロック192フィルタのモデルを使って、初期局面でのNPSを測定した。

USIオプションのDNN_Modelには、以前記事にした方法で変換したaws neuron用のモデルを指定する。
inf1.xlargeインスタンスのvCPUは4しかないため、GPUあたりのスレッド数(UCT_Threads)は2で測定した。

neuronコア1つでの測定結果は、以下の通り。

setoption name DNN_Model value /home/ubuntu/model-pre5_resnet15_swish_b4096lr004-008.neuron.pt
setoption name UCT_Threads2 value 2
isready
position startpos
go byoyomi 1000
info nps 1285 time 39064 nodes 50204 hashfull 5 score cp 189 depth 23 pv 2g2f 3c3d 7g7f 8c8d 2f2e 8d8e 6i7h 8e8f 8g8f 8b8f 2e2d 2c2d 2h2d 4a3b 2d3d 2b3c 5i5h 5a5b 3g3f 8f7f 8h7g 7c7d P*2b
bestmove 2g2f

NPSは、1285であった。

参考として、NVIDIAGPU RTX3090でのOnnxRuntimeとTensorRTを使用した際のNPSはそれぞれ以下の通りである。

バージョン NPS
OnnxRuntime版 5715
TensorRT版 41280

OnnxRuntime版に対して約22.5%、TensorRT版に対して約3.1%の推論速度である。
カタログスペックから期待されるような速度はでていない。

浮動小数点の精度は自動で変換される仕組みのため、FP16で計算できているはずである(変換したモデルサイズも元の半分になっている)。
それにしても遅い。

neuronコアが使用されていることは、neuron-topコマンドで確認できている。

neuron-top - 08:40:18
Models: 1 loaded, 1 running. NeuronCores: 1 used.
0000:00:1f.0 Utilizations: NC0 48.64%, NC1 0.00%, NC2 0.00%, NC3 0.00%,
Model ID   Device    NeuronCore%   Device Mem   Host Mem   Model Name
10008      nd0:nc0   48.64           14 MB       151 KB    1.5.5.0+3cc38c60b-/tmp/tmp4ki80ors
マルチコアでの測定

vCPUが4しかないため、おそらくCPUがボトルネックになるが、2コアと4コアでも試してみた。
モデルを複数ロードするとneuronコアが割り当てられるため、特にソースの修正はいらない(USIオプションのUCT_Threads2、UCT_Threads3、・・・を設定すればよい)。

コア数 NPS
1コア 1285
2コア 1868
4コア 2727

コアを増やすのNPSが上がることが確認できた。
NPSが線形に伸びていないのは、おそらくCPUボトルネックになっているためである。

neuron-topコマンドで、コアの使用率を確認すると、1コアの時より低くなっている。

2コアの場合:

neuron-top - 08:41:18
Models: 2 loaded, 2 running. NeuronCores: 2 used.
0000:00:1f.0 Utilizations: NC0 42.08%, NC1 42.11%, NC2 0.00%, NC3 0.00%,
Model ID   Device    NeuronCore%   Device Mem   Host Mem   Model Name
10010      nd0:nc1   42.11           14 MB       151 KB    1.5.5.0+3cc38c60b-/tmp/tmp4ki80ors
10009      nd0:nc0   42.08           14 MB       151 KB    1.5.5.0+3cc38c60b-/tmp/tmp4ki80ors

4コアの場合:

neuron-top - 08:43:15
Models: 4 loaded, 4 running. NeuronCores: 4 used.
0000:00:1f.0 Utilizations: NC0 34.38%, NC1 34.79%, NC2 34.71%, NC3 34.59%,
Model ID   Device    NeuronCore%   Device Mem   Host Mem   Model Name
10014      nd0:nc3   34.59           14 MB       151 KB    1.5.5.0+3cc38c60b-/tmp/tmp4ki80ors
10013      nd0:nc2   34.71           14 MB       151 KB    1.5.5.0+3cc38c60b-/tmp/tmp4ki80ors
10012      nd0:nc1   34.79           14 MB       151 KB    1.5.5.0+3cc38c60b-/tmp/tmp4ki80ors
10011      nd0:nc0   34.38           14 MB       151 KB    1.5.5.0+3cc38c60b-/tmp/tmp4ki80ors
15ブロックでの測定

15ブロック224フィルタのモデルでも測定した。

コア数 NPS
1コア 713
2コア 1285
4コア 1897

10ブロックの比較して、1コアの場合でNPSが、約55.5%になっている。
RTX 3090でTensorRTを使用した場合、10ブロック 49106、15ブロック 31243で、約63.6%になる。

neuronコアの使用率は、

2コアの場合:

neuron-top - 08:27:36
Models: 2 loaded, 2 running. NeuronCores: 2 used.
0000:00:1f.0 Utilizations: NC0 64.75%, NC1 64.69%, NC2 0.00%, NC3 0.00%,
Model ID   Device    NeuronCore%   Device Mem   Host Mem   Model Name
10003      nd0:nc1   64.69           29 MB       151 KB    1.5.5.0+3cc38c60b-/tmp/tmpmwpges2q
10002      nd0:nc0   64.75           29 MB       151 KB    1.5.5.0+3cc38c60b-/tmp/tmpmwpges2q

4コアの場合:

neuron-top - 08:29:36
Models: 4 loaded, 4 running. NeuronCores: 4 used.
0000:00:1f.0 Utilizations: NC0 64.95%, NC1 64.75%, NC2 64.95%, NC3 64.89%,
Model ID   Device    NeuronCore%   Device Mem   Host Mem   Model Name
10007      nd0:nc3   64.89           29 MB       151 KB    1.5.5.0+3cc38c60b-/tmp/tmpmwpges2q
10006      nd0:nc2   64.95           29 MB       151 KB    1.5.5.0+3cc38c60b-/tmp/tmpmwpges2q
10004      nd0:nc0   64.95           29 MB       151 KB    1.5.5.0+3cc38c60b-/tmp/tmpmwpges2q
10005      nd0:nc1   64.75           29 MB       151 KB    1.5.5.0+3cc38c60b-/tmp/tmpmwpges2q

10ブロックよりも使用率が高く、コア数を増やしても使用率が下がらないことから、GPUボトルネックになっていそうである(線形に伸びていないのでCPUもボトルネック)。

まとめ

dlshogiでneuronコアを使用して、初期局面でNPSがどれくらいでるか測定した。
結果、NVIDIAの最新のGPUでTensorRTを使用した場合と比較して、推論速度は1コアで約3.1%程度であった。

1つのInferentia チップで、4コア使用できるため、NPSが線形に伸びると仮定すると、約12%程度である。
ただし、今回測定したインスタンスはvCPUが少ないため、線形には伸びなかった。
なお、OnnxRuntime版と比較すると、1コアで約22.5%の推論速度のため、4コアでNPSが線形に伸びると仮定すると、約90%の推論速度になる。

NVIDIAのT4が使用できるインスタンスとの価格差が半分程度であることを考慮すると、T4のインスタンスでTensorRTを使用した方がお得かもしれない。
ただし、T4はRTX 3090より性能は低いため測定して比較してみる必要がある。

dlshogiでのNPSはあまりでないことが分かったが、TensorRTはライセンス的にインスタンを他の人と共有することができないため、inf1インスタンスでneuronコアを使用するのも用途はありそうである。

AWS inf1 インスタンスで推論を行う その2

前回AWS inf1 インスタンスでdlshogiのモデルの推論ができることを確認したが、今回はマルチGPUで推論できるかを確かめてみた。

マルチGPUにするには、Inferentia チップが複数あるAWS inf1 インスタンス(inf1.6xlargeとか)が必要と思っていたが、よく調べるとInferentia チップには、4つのNeuronコアが搭載されていて、4並列で推論ができることがわかった。

inf1.xlargeで、/opt/aws/neuron/bin/neuron-lsを実行すると4コアあることが確かめられる。

$ /opt/aws/neuron/bin/neuron-ls
+--------+--------+--------+-----------+--------------+---------+---------+---------+
| NEURON | NEURON | NEURON | CONNECTED |     PCI      | RUNTIME | RUNTIME | RUNTIME |
| DEVICE | CORES  | MEMORY |  DEVICES  |     BDF      | ADDRESS |   PID   | VERSION |
+--------+--------+--------+-----------+--------------+---------+---------+---------+
| 0      | 4      | 8 GB   |           | 0000:00:1f.0 | NA      | 1062    | NA      |
+--------+--------+--------+-----------+--------------+---------+---------+---------+

マルチコアの使い方

マルチコアの使い方は、単にモデルを複数回loadするだけである。

models = []
for i in range(4):
    model = torch.jit.load('model-pre5_resnet15_swish_b4096lr004-008.neuron.pt')
    model.eval()
    models.append(model)

のようにして、4回ロードすればよい。
それぞれのモデルが別のNeronCoreに割り当てられる。

環境変数NEURONCORE_GROUP_SIZESで、NeuronCoreをグループ化できるが、特にその必要はない。
デフォルトで1コアが1グループになっている。

並列で推論

以下のようなコードで並列で推論を試した。

from concurrent.futures import ThreadPoolExecutor

executor = ThreadPoolExecutor(max_workers=4)

def infer(model):
    for i in range(10000):
        y1, y2 = model(x1, x2)

futures = []
for i in range(4):
    futures.append(executor.submit(infer, models[i]))

for i in range(4):
    futures[i].result()


/opt/aws/neuron/bin/neuron-topで、4つのNeuronコアが使用されていることが確認できた。

$/opt/aws/neuron/bin/neuron-top
neuron-top - 12:34:51
Models: 4 loaded, 4 running. NeuronCores: 4 used.
0000:00:1f.0 Utilizations: NC0 67.13%, NC1 67.41%, NC2 67.32%, NC3 67.30%,
Model ID   Device    NeuronCore%   Device Mem   Host Mem   Model Name
10004      nd0:nc3   67.30           29 MB       151 KB    1.5.5.0+3cc38c60b-/tmp/tmpmwpges2q
10003      nd0:nc2   67.32           29 MB       151 KB    1.5.5.0+3cc38c60b-/tmp/tmpmwpges2q
10001      nd0:nc0   67.13           29 MB       151 KB    1.5.5.0+3cc38c60b-/tmp/tmpmwpges2q
10002      nd0:nc1   67.41           29 MB       151 KB    1.5.5.0+3cc38c60b-/tmp/tmpmwpges2q

まとめ

AWS inf1 インスタンスでマルチコアでの推論をためした。
一番安いインスタンスでも4コアが搭載されているので、これで1コアの推論性能が良ければNvidiaGPUインスタンよりかなりお得である。
推論性能は別途検証したい。

AWS inf1 インスタンスで推論を行う

dlshogiをAWS inf1 インスタンスで動かせないか試している。
AWS inf1 インスタンスは、推論に特化したAWS Inferentia チップが搭載されている。

現在のdlshogiは、TensorRTを使用して推論を行っているため、NvidiaGPUで動かすことが前提になっている。
onnxruntime版も用意しているが、推論速度は7.2倍ほど差がある。

dlshogiをAWSで動かそうとすると、NvidiaGPUが搭載されたインスタンスを借りる必要がある。
しかし、NvidiaGPUが搭載されたAWSインスタンスの料金は高い。
AWS inf1 インスタンスは、NvidiaGPUインスタンスに比べるとリーズナブルである。

料金

推論向けのT4が搭載されたg4dnインスタンスと比較すると、バージニア北部で、以下の通りである。

インスタンス vCPU GPU メモリ(GB) スポットインスタンス料金
g4dn.2xlarge 8 1 32 $0.2256 /1 時間
g4dn.12xlarge 48 4 192 $1.1761 /1 時間
inf1.2xlarge 8 1 16 $0.1086 /1 時間
inf1.6xlarge 24 4 48 $0.354 /1 時間

CPU、メモリが同じインスタンスがないが比較的近いスペックだと、同じGPU数で価格は半分以下になる。

推論性能

推論性能は、カタログスペックで、以下の通りである。

T4 65 TFLOP(FP16)
Inferentia 128 TOPS

ただし、dlshogiで実際に性能がでるかは測ってみないとわからない。


ということで、まずはPythonで、dlshogiのモデルの推論ができるか試してみた。

概要

Inferentiaを使用するには、neuron SDKを使用する必要がある。
neuron SDKは、TensorFlowやPyTorchをカスタマイズしたパッケージとして提供される。
Deep Learming AMIを使用すると、フレームワーク別のconda環境が用意されている。
ドキュメント参照:
Compile with Framework API and Deploy on EC2 Inf1 — AWS Neuron documentation

PyTorchで学習したモデルは、直接は利用できないため、Inferentia向けに変換を行う必要がある。
残念ながらモデルの形式は、onnxには対応していない。
onnxに変換前のモデルが必要である(dlshogi with GCTのモデルはonnxでしか公開していないので各自学習したモデルを使用する必要がある)。

なお、onnxからPyTorchに変換するツールを試したが、変換後の推論結果が一致せずうまくいかなかった。

手順

変換

モデルの変換は、inf1インスタンスでなくても実行できる。
c4.xlargeで、Deep Learming AMI(Ubuntu18)を使用して行った。

  • ログイン後、
source activate aws_neuron_pytorch_p36

を実行し、PyTorchのneuron SDKの環境に切り替える。

  • dlshogiのモデルをアップロードする。
  • dlshogiのソースをgit cloneして、pip install -e .でパッケージをインストールする。
  • 以下のスクリプトでモデルを変換する(ネットワークタイプとファイル名は書き換える)。
import torch
import torch_neuron

import torch.nn as nn
from dlshogi.common import *
from dlshogi.network.policy_value_network import policy_value_network
from dlshogi import serializers
from dlshogi import cppshogi

model = policy_value_network('resnet15_swish', add_sigmoid=False)
serializers.load_npz('model-pre5_resnet15_swish_b4096lr004-008', model, False)

class PolicyValueNetworkAddSigmoid(nn.Module):
    def __init__(self, model):
        super(PolicyValueNetworkAddSigmoid, self).__init__()
        self.model = model
        
    def forward(self, x1, x2):
        y1, y2 = self.model(x1, x2)
        return y1, torch.sigmoid(y2)

model = PolicyValueNetworkAddSigmoid(model)
model.eval()

def mini_batch(hcpevec):
    features1 = np.empty((len(hcpevec), FEATURES1_NUM, 9, 9), dtype=np.float32)
    features2 = np.empty((len(hcpevec), FEATURES2_NUM, 9, 9), dtype=np.float32)
    move = np.empty((len(hcpevec)), dtype=np.int64)
    result = np.empty((len(hcpevec)), dtype=np.float32)
    value = np.empty((len(hcpevec)), dtype=np.float32)

    cppshogi.hcpe_decode_with_value(hcpevec, features1, features2, move, result, value)

    z = result.astype(np.float32) - value + 0.5

    return (torch.tensor(features1),
            torch.tensor(features2),
            torch.tensor(move.astype(np.int64)),
            torch.tensor(result.reshape((len(hcpevec), 1))),
            torch.tensor(z),
            torch.tensor(value.reshape((len(value), 1)))
            )

batchsize = 1
hcpevec = np.array([([ 88, 164,  73,  33,  12, 215,  87,  33, 126, 142,  77,  33,  44, 175,  66, 120,  20, 194, 171,  16, 158,  77,  33,  44, 215,  95,  33,  62, 142,  73,  33,  12], 0, 7739, 1, 0)] * batchsize, HuffmanCodedPosAndEval)
x1, x2, t1, t2, z, value = mini_batch(hcpevec)

model_neuron = torch.neuron.trace(model, example_inputs=[x1, x2], dynamic_batch_size=True)

model_neuron.save('model-pre5_resnet15_swish_b4096lr004-008.neuron.pt')
推論

inf1.xlargeをスポットインスタンスで借りて試した。
※スポットインスタンスのvCPUの上限がデフォルト0になっていたので、制限解除の申請が必要だったがすぐに許可された。

  • ログイン後、
source activate aws_neuron_pytorch_p36

を実行し、PyTorchのneuron SDKの環境に切り替える。

  • 変換したモデルをアップロードする。
import torch
import torch_neuron

import torch.nn as nn
from dlshogi.common import *
from dlshogi import cppshogi

model = torch.jit.load('model-pre5_resnet15_swish_b4096lr004-008.neuron.pt')
model.eval()

def mini_batch(hcpevec):
    features1 = np.empty((len(hcpevec), FEATURES1_NUM, 9, 9), dtype=np.float32)
    features2 = np.empty((len(hcpevec), FEATURES2_NUM, 9, 9), dtype=np.float32)
    move = np.empty((len(hcpevec)), dtype=np.int64)
    result = np.empty((len(hcpevec)), dtype=np.float32)
    value = np.empty((len(hcpevec)), dtype=np.float32)

    cppshogi.hcpe_decode_with_value(hcpevec, features1, features2, move, result, value)

    z = result.astype(np.float32) - value + 0.5

    return (torch.tensor(features1),
            torch.tensor(features2),
            torch.tensor(move.astype(np.int64)),
            torch.tensor(result.reshape((len(hcpevec), 1))),
            torch.tensor(z),
            torch.tensor(value.reshape((len(value), 1)))
            )


batchsize = 128
hcpevec = np.array([([ 88, 164,  73,  33,  12, 215,  87,  33, 126, 142,  77,  33,  44, 175,  66, 120,  20, 194, 171,  16, 158,  77,  33,  44, 215,  95,  33,  62, 142,  73,  33,  12], 0, 7739, 1, 0)] * batchsize, HuffmanCodedPosAndEval)
x1, x2, t1, t2, z, value = mini_batch(hcpevec)

print('start')
for i in range(10000):
    y1, y2 = model(x1, x2)
  • 別のコンソールから、/opt/aws/neuron/bin/neuron-topを実行することで、Inferentiaが使用されていることを確認できる。
neuron-top - 12:53:58
Models: 1 loaded, 1 running. NeuronCores: 1 used.
0000:00:1f.0 Utilizations: NC0 66.96%, NC1 0.00%, NC2 0.00%, NC3 0.00%,
Model ID   Device    NeuronCore%   Device Mem   Host Mem   Model Name
10016      nd0:nc0   66.96           29 MB       151 KB    1.5.5.0+3cc38c60b-/tmp/tmpmwpges2q

まとめ

AWS inf1 インスタンスで、dlshogiのモデルの推論ができることが確認できた。
C++から推論するには、LibTorchを使用して推論する必要があるため、dlshogiの推論部分のソース修正が必要になるため、別途試したい。
推論速度もC++で試せるようになったら測定する予定である。

pandoc-crossrefで参考文献を引用する方法

ほぼ個人用メモ

参考文献管理

Mendeleyを使う。

論文の場合は、PDFを登録する。

書籍の場合は、Google Scholar ボタンを使用して、Bib Tex形式をコピーしてMendelayに張り付ける。
参考:
Google Scholarプラグインから書籍のBibTeXを取得してMendeleyに突っ込む - かりっと揚げたらフライドポテト

BibTex形式でエクスポート

Mendelayから文献を選択して右クリック→Export...から、BibTex形式(.bib)で保存する。

Markdownでの引用の記述方法

# Title1

[@Huang2010]を参照

# 参考文献

のように記述する。

末尾の参考文献の下に引用文献の一覧が出力される。

参考:
Pandocで参考文献リストを処理する扱う方法 (PandocとZoteroで参考文献:後編)

スタイルを準備

引用スタイルがデフォルトだと、

(Huang, Coulom, and Lin 2010)を参照

のような表示になる。

これを

(1)を参照

のようにしたい場合、スタイルファイルを使用する。

Zotero Style Repositoryから、sist02.cslをダウンロードする。

Wordに変換する例

pandocはpdfにする場合が多いと思うが、wordに変換するコマンド例を示す。

pandoc -F pandoc-crossref --citeproc --bibliography=ShogiAIBook.bib --csl=sist02 a.md -o a.docx

第2回 電竜戦TSEC 結果報告

7/17~18にかけて実施された第2回 電竜戦TSECにdlshogiというソフトで参加しました。
チームとしてはGCT電竜でも参加しています。
第2回世界将棋AI 電竜戦TSEC -中継サイト

ファイナルリーグとB級リーグに分かれて実施されて、7/3に行われた予選で上位2チームでファイナルリーグ、それ以外がB級リーグで競うという構成です。

dlshogiは予選では、ファイナルリーグに残れなかったため、B級リーグでの参加です。
TSECは、通常のコンピュータ将棋の大会とは異なり、ほぼ互角の指定局面から開始するという特徴があります。
戦型別に3部構成に分かれて、第1部は相振B級その他部門、第2部 相居飛車部門、第3部は対抗系部門となっています。

結果は、B級48チーム中、

第一部 2位
第二部 1位
第三部 1位

で、2部門で優勝、B級総合優勝という結果でした。

予選は学習が間に合わずいまいちな成績でしたが、本選では調整が間に合いR+150くらい強くなっていました。

dlshogiとGCTの違い

GCT電竜の方は、世界コンピュータ選手権のdlshogi with GCTと同じモデルで参加しました。
これは、ResNet10ブロック192フィルタのモデルで、floodgateの棋譜とAobaZeroの棋譜とdlshogiの強化学習棋譜を混ぜて学習しています。

一方、今回のdlshogiの方は、ResNet15ブロック224フィルタで、モデルを初期値から学習しています。
教師データは、dlshogi with GCTの強化学習のデータと、入玉宣言の対策のために水匠などによる自己対局で入玉宣言まで対局した棋譜で事前学習して、強化学習で教師データを生成しました。

また、dlshogi with GCTは指し手のみを学習していましたが、方策の分布を学習するようにしています。
方策の分布を学習すると精度は高くなるものの、探索パラメータを調整しないと実際の対局では弱くなるため、時間をかけて探索パラメータの調整を行いました。

まとめ

B級での優勝なので、ディープラーニング+MCTSの将棋AIが、Stockfish系の将棋AIを上回ったというにはインパクトが少ないですが、秋の電竜戦では総合優勝できるように頑張りたいと思います。
将棋の検討に使えるようにモデルを公開したいのですが、モデルを公開してしまうとdlshogiを使って定跡を作られてしまってdlshogiの序中盤のアドバンテージがなくなってしまうため(個人的には定跡などアンチコンピュータ戦略で勝たれると面白くないので)、今のところ大会で成果を出すまでは公開を控えたいと思っています。