NVIDIAは、オープンソースライブラリのTensorRT-LLMをアップデートし、新たにエンコーダー・デコーダーモデルをサポートするようになりました。これにより、AIアプリケーションの効率が大幅に向上し、NVIDIAのGPU上でより多様なモデルアーキテクチャの最適化が可能になります。
更新されたTensorRT-LLMは、例えばLlama 3.1のようなデコーダー専用アーキテクチャや、Mixtralのような専門家混合モデル、Mambaのような選択的状態空間モデルといった従来のモデルに加えて、T5やmT5、BARTなどのエンコーダー・デコーダーモデルにも対応しています。
バッチ処理をリアルタイムで行う「インフライトバッチング」技術も導入され、キャッシュ管理やバッチ管理の複雑さを解消し、高速かつ低遅延での処理を実現しています。
加えて、NVIDIA Triton Inference Serverを用いた生産環境へのデプロイメントサポートがあり、性能をさらに向上させるTensorRT-LLM backendも利用できるため、本番環境に適した選択肢となっています。将来のアップデートでは、エンコーダー・デコーダーモデルのレイテンシとスループットを改善するFP8量子化の導入が予定されており、NVIDIAはAI技術の進化をリードし続けています。
出典 : NVIDIA TensorRT-LLM Enhances Encoder-Decoder Models with In-Flight Batching https://blockchain.news/news/nvidia-tensorrt-llm-enhances-encoder-decoder-models