2024-05-26から1日間の記事一覧
前回、単純なTransformerで学習を試した。 出力層を全てのトークンの全結合としていたため、パラメータ数の半分近くを占めており効率が悪かった。 今回は、出力層の全結合の前に、カーネルサイズ1の畳み込み層を追加することで、チャンネル方向に圧縮を行い…
前回、単純なTransformerで学習を試した。 出力層を全てのトークンの全結合としていたため、パラメータ数の半分近くを占めており効率が悪かった。 今回は、出力層の全結合の前に、カーネルサイズ1の畳み込み層を追加することで、チャンネル方向に圧縮を行い…