2024年、AI技術は大きく飛躍し、ローカルGPUで動くLLM(大規模言語モデル)が家庭にも普及する時代が訪れました。特に、パラメータ数が70億から1400億に及ぶモデルのリリースが目覚ましい進展を遂げています。
一方で、消費者向けのGPUでも、より小規模なモデルは動かせるものの、より巨大なモデルを扱うには専用のAI GPUが必要とされます。そこで、複数のGPUを使用してモデルを動かす方法が注目され、特に「device_map=”auto”」設定を通じたモデル並列化が有効です。
この設定を活用し、異なるGPUを組み合わせても動作することが実態で明らかになりました。ただし、全てのモデルでうまくいくわけではなく、例えばStable-Diffusionには適さないことも確認されています。
このテクニックの全貌に迫るためには、地道なソースコードの分析が不可欠ですが、それによってどのように並列処理が実現されるのかが見えてきます。バッチスケジューラなどのミドルウェアとの連携でさらなる効率化が見込めます。
このような深い技術的探求は、かつてのインフラエンジニアでは考えられなかったことかもしれません。しかし、今日では、このような研究が私たちの理解を深め、次世代のAI利用を現実のものにしていくのです。
出典 : https://eng-blog.iij.ad.jp/archives/25242