次世代GPU活用で大規模言語モデルが超高速化!FlashAttention-3とは?

2024.12.14

WorkWonders

トランスフォーマーアーキテクチャの重要な構成要素であるアテンション機能は、文章や数値の関連を把握する上で不可欠ですが、大規模言語モデル(LLM)のサイズが拡大するにつれて、その計算コストがボトルネックになっていました。
これを解決するため、コルファックス研究所、メタ、Nvidia、ジョージア工科大学、プリンストン大学、そしてTogether AIの研究者たちは、Nvidia Hopper GPU(H100およびH800)でアテンション計算を高速化する新技術「FlashAttention-3」を導入しました。

FlashAttention-3では、特にH100 GPUの性能を最大限に引き出す新機能が取り入れられています。これにより、計算とデータ転送の間で最大限のオーバーラップを実現し、アイドル時間を削減するとともに、計算とsoftmax操作を交互に行うことで、計算のボトルネックを減らします。
さらに、モデルのサイズを削減する技術である量子化計算では、FlashAttention-3が特別な操作配列によって、精度の低下を最小限に抑えながら高速かつ正確な計算を実現しています。

これらの改良により、LLMのトレーニングや実行速度が、前のバージョンに比べて1.5~2倍に向上しました。また、PyTorchやHugging Face Transformersなどの人気の深層学習ライブラリに統合されることで、研究者や開発者がFlashAttention-3の性能向上の恩恵を受けることが容易になると期待されています。
LLMの訓練時間の短縮、長文理解の改善、生産コストの削減など、様々なメリットが存在するため、今後の展開が注目されています。

出典 : FlashAttention-3 unleashes the power of H100 GPUs for LLMs https://venturebeat.com/ai/flashattention-3-unleashes-the-power-of-h100-gpus-for-llms/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

【お知らせ】
弊社ワークワンダース社主催ウェビナーのご案内です。


<2025年1月21日実施セミナー>

生産性を爆上げする、「生成AI導入」と「AI人材育成」のコツ


【内容】
1. 生産性を爆上げするAI活用術(安達裕哉:ワークワンダース株式会社 代表取締役CEO)
2. 成功事例の紹介:他業種からAI人材への転身(梅田悟司:ワークワンダース株式会社CPO)
3. 生成AI導入推進・人材育成プログラム「Q&Ai」の全貌(元田宇亮:生成AI研修プログラム「Q&Ai」事業責任者)
4. 質疑応答



日時:
2025/1/21(火) 16:00-17:30

参加費:無料  
Zoomビデオ会議(ログイン不要)を介してストリーミング配信となります。



お申込み・詳細 こちらウェビナーお申込みページをご覧ください

(2024/12/11更新)