高速で複数のLoRAアダプタを扱う方法

2024.08.07

WorkWonders

LoRAアダプタを使用すると、特定のタスクや分野に特化した大規模言語モデル(LLM)を利用できます。これにより、関数呼び出しや分類、翻訳など、異なるタスクを実行できるのです。しかし、複数のアダプタを使うには、通常は現在のアダプタをアンロードして新しいアダプタをロードする必要があり、その過程でユーザー体験が低下します。
幸いなことに、複数のアダプタを同時に、短い待ち時間もなく提供できるオープンソースのフレームワークが存在します。例えば、vLLMはApache 2.0ライセンスの下で提供され、効率的な推論フレームワークの一つとして、複数のLoRAアダプタを同時に実行し、提供可能です。
本記事では、vLLMを使って複数のLoRAアダプタをどのように使用するか、オフライン推論でLoRAアダプタをどのように使うか、そしてオンライン推論でユーザーに複数のアダプタをどのように提供するかを説明します。例の説明には、関数呼び出しとチャットのアダプタを使ったLlama 3を使用しています。

出典 : Serve Multiple LoRA Adapters with vLLM https://towardsdatascience.com/serve-multiple-lora-adapters-with-vllm-5323b0425b82

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください