以前にCUDAマルチストリームに対応した際、8GPUだと、CPU-GPU間の帯域がボトルネックとなり、NPSが上がらない課題があることがわかった。 対策として、FP16で転送することを検討し、NPSが平均で18.4%向上することを確認した。 GPU数とNPS GPU数とNPSの関係を…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。