Transformer
前回までは、位置エンコーダに学習可能な絶対位置エンコーダを使用していた。 今回は、相対位置エンコーダを試す。 位置エンコーダ Transformerは、トークンが入力の何番目にあるかによらず等価に扱う。 そのため、入力の位置が意味を持つ場合は、位置を何ら…
前回までは、TransformerをPyTorch標準のnn.TransformerEncoderを使用して実装していた。 位置エンコーダに「Relative Position Representations」などを使用しようとした場合、Muliti head self-attentionの計算を変更する必要がある。 そのため、Muliti he…
前回までは、ネットワーク全体をTransformerで構成したところ、ResNetと比較して精度が上がらないという結果になった。今回は、ResNetとTransformerを組み合わせて、初めにResNetで特徴マップを作成した後、その特徴マップを座標ごとに分割しトークンとして…
前回の続き。今回は、入力特徴量の作成処理を実装し、ベースラインとして単純なTransformerモデルを学習させた。 入力特徴量 盤上の駒と駒の種類ごとの効き、効き数、持ち駒、王手をトークンに埋め込んで表現する。 盤 盤上の駒は、各マスを1トークンに対応…
DeepmindがarXivで発表したチェスで探索なしでグランドマスターレベルに達したTransformerベースモデルに関する論文「Grandmaster-Level Chess Without Search」を読んだ際のメモ。 概要 標準的なTransformerのデコーダを教師あり学習することで探索なしでチ…