LoRAアダプタを使用すると、特定のタスクや分野に特化した大規模言語モデル(LLM)を利用できます。これにより、関数呼び出しや分類、翻訳など、異なるタスクを実行できるのです。しかし、複数のアダプタを使うには、通常は現在のアダプタをアンロードして新しいアダプタをロードする必要があり、その過程でユーザー体験が低下します。
幸いなことに、複数のアダプタを同時に、短い待ち時間もなく提供できるオープンソースのフレームワークが存在します。例えば、vLLMはApache 2.0ライセンスの下で提供され、効率的な推論フレームワークの一つとして、複数のLoRAアダプタを同時に実行し、提供可能です。
本記事では、vLLMを使って複数のLoRAアダプタをどのように使用するか、オフライン推論でLoRAアダプタをどのように使うか、そしてオンライン推論でユーザーに複数のアダプタをどのように提供するかを説明します。例の説明には、関数呼び出しとチャットのアダプタを使ったLlama 3を使用しています。
出典 : Serve Multiple LoRA Adapters with vLLM https://towardsdatascience.com/serve-multiple-lora-adapters-with-vllm-5323b0425b82