NVIDIAが新しいプロトコル「TensorRT-LLM MultiShot」を発表しました。
これは生成AIワークロードのために設計されており、複数のGPUを使う際の通信効率を向上させる目的で開発されました。従来のAllReduceアルゴリズムでは、GPU間で多数のデータ交換ステップが必要であり、遅延の原因となっていました。これに対し、TensorRT-LLM MultiShotは、NVLink Switch技術を利用することで、通信ステップを減少させ、最大3倍の通信速度向上を実現します。
GPUそれぞれが結果の一部を収集した後に、全GPUに送信する方法で、GPUの帯域を減らしながら全体の処理能力を改善します。
この技術により、遅延を軽減または特定の遅延での処理量を増やし、GPUを多く使うほどに性能が向上する可能性があります。
NVIDIAは開発者や研究者と密接に協力し、性能最適化のための新たな方法を模索し続けています。
出典 : NVIDIA’s TensorRT-LLM MultiShot Enhances AllReduce Performance with NVSwitch https://blockchain.news/news/nvidia-tensorrt-llm-multishot-enhances-allreduce-performance