データサイエンティストの中には、LLM(Large Language Models)の開発に興味を持つ人が多いです。
モデルの構造、トレーニング手法、データ収集など、理論的な面が注目されがちですが、実際にユーザーが使える形でモデルを配信するには一苦労です。
そこで今回、具体的なLLMであるllama-3の簡単な配信方法をBentoMLを用いて説明します。
ディープラーニングでは適切なハードウェアが必要不可欠です。特にLLMのような大規模なモデルではなおさらです。
残念ながら私にはGPUがありませんが、そのため外部のサービスを利用し、彼らのマシンを借りて作業をします。
今回はRunpodを選びました。彼らのサービスを知っており、このチュートリアルをフォローするには手頃な価格だと思っています。
しかし、ご自身でGPUを持っている場合や他の方法を試したい場合も、この記事が役立つでしょう。
出典 : LLMOps — Serve a Llama-3 model with BentoML https://towardsdatascience.com/llmops-serve-a-llama-3-model-with-bentoml-4d580a7a007f