TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

コンピュータ囲碁

【論文】Adversarial Policies Beat Superhuman Go AIs

コンピュータ囲碁

[2211.00241] Adversarial Policies Beat Superhuman Go AIs最先端のコンピュータ囲碁ソフトのKataGoの脆弱性を攻撃することで、高い勝率を上げるエージェントを訓練する方法について書かれた論文。囲碁のルールの設定が公平でないとRedditで批判されている…

AlphaGo Zeroの論文を読むその5(ドメイン知識)

AlphaGo AlphaGo Zero コンピュータ囲碁

前回までで、実装に必要な内容についてほぼ解説しました。今回は、補足的な内容です。ドメイン知識論文には以下の一文が記載されている。 Our primary contribution is to demonstrate that superhuman performance can be achieved without human domain …

AlphaGo Zeroの論文を読むその4(自己対局)

AlphaGo Zero AlphaGo コンピュータ将棋コンピュータ囲碁

その3の続き自己対局パイプライン自己対局パイプラインは、3つの主要な部分から構成される。最適化評価自己対局これらは並行で実行される。最適化ミニバッチサイズ：2,048 (32バッチずつ別々のGPUで実行) ミニバッチデータは直近50万の自己対局のす…

AlphaGo Zeroの論文を読むその3(探索アルゴリズム)

AlphaGo AlphaGo Zero コンピュータ囲碁

その2の続き今回は対局時の探索アルゴリズムについてです。探索アルゴリズム対局時はpolicyとvalueを使ったモンテカルロ木探索(APV-MCTS)を使用する。探索は複数スレッドで並列に行う。探索木の各ノードsは以下の情報を持つ。 N(s,a) 行動aの訪問回数 W(s…

AlphaGo Zeroの論文を読むその2(ネットワーク構成)

AlphaGo AlphaGo Zero コンピュータ囲碁コンピュータ将棋

前回に続いてAlphaGo Zeroの論文についてです。ネットワーク構成入力特徴 19×19の2値画像を17枚 8枚は現在のプレイヤーの石の座標を示す2値画像、8手分 8枚は相手のプレイヤーの石の座標を示す2値画像、8手分 1枚は現在のプレイヤーの石の色を示す全て0か1…

AlphaGo Zeroの論文を読む

AlphaGo AlphaGo Zero コンピュータ囲碁

今日のAlphaGo Zeroのニュースは衝撃でした。将棋AIで方策勾配で強化学習を行ったときは、発散してうまくいかなかったので教師データで最初に訓練が必要と思っていました。それが、自己対局のみで強くできるとは驚きです。論文が公開されたので、使われた…