次世代AIを高速化!「Pie」がCPUメモリ集約でLLM推論の常識を変える

2024.11.28

WorkWonders

UCバークレーの研究チームが発表した技術論文「Pie: Pooling CPU Memory for LLM Inference」は、大型言語モデル(LLM)のメモリ要求に対する画期的な解決策を提示しています。LLMの爆発的な進化は、自然言語処理とAI分析を革新していますが、増え続けるサイズと記憶容量が課題となっています。
従来のGPU-CPUメモリ交換は遅延を招くことが多いですが、「Pie」は性能を落とさずにメモリ交換を行うことができ、予測可能なメモリアクセスパターンを活かしてNVIDIA GH200 Grace Hopper Superchipのような最新ハードウェアの高帯域幅を利用します。これにより、バックグラウンドでのデータ交換がメインの計算に影響を与えることなく行え、リアルタイムの情報に基づいたCPUメモリ割り当ての動的調整を可能にしています。
実験評価によれば、「Pie」はメモリ容量を増やしつつ計算遅延を最小限に保ち、最大1.67倍のGPUメモリ削減を実現するとともに、従来のソリューションに比べて低遅延で高いスループットを達成しています。メモリの増設に悩む研究者やエンジニアに新たな選択肢を提供してくれるでしょう。

出典 : Pooling CPU Memory for LLM Inference With Lower Latency and Higher Throughput (UC Berkeley) https://semiengineering.com/pooling-cpu-memory-for-llm-inference-with-lower-latency-and-higher-throughput-uc-berkeley/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください