NVIDIAの最新TensorRT-LLMでAIの可能性が拡大!

2024.12.13

WorkWonders

NVIDIAは、オープンソースライブラリのTensorRT-LLMをアップデートし、新たにエンコーダー・デコーダーモデルをサポートするようになりました。これにより、AIアプリケーションの効率が大幅に向上し、NVIDIAのGPU上でより多様なモデルアーキテクチャの最適化が可能になります。

更新されたTensorRT-LLMは、例えばLlama 3.1のようなデコーダー専用アーキテクチャや、Mixtralのような専門家混合モデル、Mambaのような選択的状態空間モデルといった従来のモデルに加えて、T5やmT5、BARTなどのエンコーダー・デコーダーモデルにも対応しています。

バッチ処理をリアルタイムで行う「インフライトバッチング」技術も導入され、キャッシュ管理やバッチ管理の複雑さを解消し、高速かつ低遅延での処理を実現しています。

加えて、NVIDIA Triton Inference Serverを用いた生産環境へのデプロイメントサポートがあり、性能をさらに向上させるTensorRT-LLM backendも利用できるため、本番環境に適した選択肢となっています。将来のアップデートでは、エンコーダー・デコーダーモデルのレイテンシとスループットを改善するFP8量子化の導入が予定されており、NVIDIAはAI技術の進化をリードし続けています。

出典 : NVIDIA TensorRT-LLM Enhances Encoder-Decoder Models with In-Flight Batching https://blockchain.news/news/nvidia-tensorrt-llm-enhances-encoder-decoder-models

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください

↓10秒で登録できます。↓