トランスフォーマーアーキテクチャの重要な構成要素であるアテンション機能は、文章や数値の関連を把握する上で不可欠ですが、大規模言語モデル(LLM)のサイズが拡大するにつれて、その計算コストがボトルネックになっていました。
これを解決するため、コルファックス研究所、メタ、Nvidia、ジョージア工科大学、プリンストン大学、そしてTogether AIの研究者たちは、Nvidia Hopper GPU(H100およびH800)でアテンション計算を高速化する新技術「FlashAttention-3」を導入しました。
FlashAttention-3では、特にH100 GPUの性能を最大限に引き出す新機能が取り入れられています。これにより、計算とデータ転送の間で最大限のオーバーラップを実現し、アイドル時間を削減するとともに、計算とsoftmax操作を交互に行うことで、計算のボトルネックを減らします。
さらに、モデルのサイズを削減する技術である量子化計算では、FlashAttention-3が特別な操作配列によって、精度の低下を最小限に抑えながら高速かつ正確な計算を実現しています。
これらの改良により、LLMのトレーニングや実行速度が、前のバージョンに比べて1.5~2倍に向上しました。また、PyTorchやHugging Face Transformersなどの人気の深層学習ライブラリに統合されることで、研究者や開発者がFlashAttention-3の性能向上の恩恵を受けることが容易になると期待されています。
LLMの訓練時間の短縮、長文理解の改善、生産コストの削減など、様々なメリットが存在するため、今後の展開が注目されています。
出典 : FlashAttention-3 unleashes the power of H100 GPUs for LLMs https://venturebeat.com/ai/flashattention-3-unleashes-the-power-of-h100-gpus-for-llms/