TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

2024-05-26から1日間の記事一覧

大規模言語モデルで将棋AIを作る その3(出力層の構成)

前回、単純なTransformerで学習を試した。 出力層を全てのトークンの全結合としていたため、パラメータ数の半分近くを占めており効率が悪かった。 今回は、出力層の全結合の前に、カーネルサイズ1の畳み込み層を追加することで、チャンネル方向に圧縮を行い…