次世代AIのメモリ消費を抑える新技術「FastGen」とは

2024.05.10

WorkWonders

私たちの研究チームは、大規模言語モデル(LLM)にとって欠かせないメモリを大幅に削減しつつ、その効率を維持する新たな技術「FastGen」を開発しました。この研究は、深層学習の発展に貢献する国際会議ICLR 2024で紹介され、研究論文には名誉ある賞も授与されました。

「FastGen」は、LLMが効果的に動作するために使用されるキー値(KV)キャッシュのメモリ使用量を大幅に削減します。通常、LLMはKVキャッシュに過去の計算データを格納しており、情報を再計算することなく迅速に応答を生成しますが、この方法は大量のメモリを消費します。私たちは、KVキャッシュから不要なデータを捨てることを可能にすることで、メモリ使用量を半分に削減するFastGenを考案し、これにより高度なAIツールをより広範な応用に使いやすく、また手頃な価格で提供できるようになります。

今後、この技術をさらに発展させて、リソース効率の良いLLMアプリケーションを推進し、広い範囲での応用を実現していきたいと考えています。これは、私たちの日常生活においてAIの役割がより大きくなる未来において、非常に重要なステップとなるでしょう。

出典 : https://www.microsoft.com/en-us/research/blog/llm-profiling-guides-kv-cache-optimization/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください