エストニアのGPUクラウドスタートアップであるBackpropが、4年前に登場したNvidia RTX 3090を使用して、大規模言語モデルを数千人のユーザーに提供することができると発表しました。
RTX 3090はFP16で動作させることで、100人の同時リクエストに応じつつ、Llama 3.1 8Bモデルを受け入れ可能なスループットで実行できることを示しています。
同時にリクエストを行うユーザーはごく一部と考えられるため、Backpropは一枚の3090が実際には数千人のユーザーをサポートできると主張しています。
なお、FP16モデルを4ビットや8ビットに圧縮すれば理論上スループットをさらに増やすことができますが、モデルの精度が低下する可能性もあります。
従来のGPUでも最新のAIチャットボットやサービスに十分対応できることを示すこの情報は、コスト削減や小規模なAIサービス提供において新たな選択肢を提示するものです。
出典 : Old RTX 3090 enough to serve thousands of LLM users https://www.theregister.com/2024/08/23/3090_ai_benchmark/