最近のLLMでは、AttentionにQKNormが使われている。 特に、RMSNormを使う実装が主流になっている。世界コンピュータ将棋の会場でnshogiの開発者と話した際に、SwiGLUとQKNormが効果があったということだった。 SwiGLUは、dlshogiでも採用して効果が高いこと…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。