従来のGPUで実現するAIサービスの新たな可能性

2024.08.25

WorkWonders

エストニアのGPUクラウドスタートアップであるBackpropが、4年前に登場したNvidia RTX 3090を使用して、大規模言語モデルを数千人のユーザーに提供することができると発表しました。
RTX 3090はFP16で動作させることで、100人の同時リクエストに応じつつ、Llama 3.1 8Bモデルを受け入れ可能なスループットで実行できることを示しています。

同時にリクエストを行うユーザーはごく一部と考えられるため、Backpropは一枚の3090が実際には数千人のユーザーをサポートできると主張しています。
なお、FP16モデルを4ビットや8ビットに圧縮すれば理論上スループットをさらに増やすことができますが、モデルの精度が低下する可能性もあります。

従来のGPUでも最新のAIチャットボットやサービスに十分対応できることを示すこの情報は、コスト削減や小規模なAIサービス提供において新たな選択肢を提示するものです。

出典 : Old RTX 3090 enough to serve thousands of LLM users https://www.theregister.com/2024/08/23/3090_ai_benchmark/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダース社は、生成AIの活用・導入について客観的な立場からご相談に応じています。

生成AIに関するご相談はこちらからご連絡ください。 当社のご支援実績はこちらからご確認ください。