次世代AIを支える「アテンションオフローディング」の発見

2024.05.16

WorkWonders

清華大学の研究者たちが、大規模言語モデル(LLM)のコストを削減するための計算構成とハードウェアの再編成に関する新しい研究を発表しました。
この研究では、より安価なGPUを使用してメモリ集約型の演算を行い、より高価な計算最適化アクセラレータは他のタスクに予約する「アテンションオフローディング」という技術を紹介しています。

LLMの推論プロセスには、異なる型の演算が関わっており、リソースを最適に使用するためには演算を適切に配置することが鍵となります。
特に自己注意演算はメモリバウンドの作業で、計算能力よりもビデオRAMの容量が必要です。

研究者たちが開発した「ラミナ」というシステムは、計算には高性能アクセラレータを、KVキャッシュと呼ばれる注目値の格納と自己注意演算には一般的なGPUを使用します。
これにより、高価な計算最適化アクセラレータの利用効率が向上し、特に大規模にLLMを使用する際に有利です。

LLMが普及する中で、モデルを提供する企業は推論コストの削減とアクセラレータへの投資を減らす新たな方法を必要としており、それがアテンションオフローディングの技術によって実現されます。
オープンソースコミュニティによって迅速に実装される可能性が高いこのコンセプトは、まだコードが公開されていませんが、研究の成果は明確に示されています。

出典 : https://venturebeat.com/ai/how-attention-offloading-reduces-the-costs-of-llm-inference-at-scale/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダース社は、生成AIの活用・導入について客観的な立場からご相談に応じています。

生成AIに関するご相談はこちらからご連絡ください。 当社のご支援実績はこちらからご確認ください。