アリババクラウドは、自社開発したイーサネットベースの高性能ネットワーク(HPN)を用いて、大規模言語モデルトレーニング用の通信を行っていることを明らかにしました。同ネットワークはベンダーロックインを避けるために設計されており、オープンスタンダードの採用によってイノベーションが容易になるとのメリットがあります。
HPNは、GPU間の同期作業が求められるAIインフラにおいて、単一障害点、特にトップオブラックスイッチを避ける仕組みが採用されています。また、アリババクラウドは、エネルギー効率と安定性を追求し、独自の冷却システムを開発。データセンターは、1棟で15000台のGPUを搭載した「ポッド」で構成されており、コスト削減も図られています。
ネットワークとデータセンターの進化はとどまることを知らず、将来のモデル拡大やデータセンターの増加に向けて、より多くのGPUを実装した次世代アーキテクチャの設計に既に取り組んでいます。アリババクラウドの進化は、AI技術とともに加速し続けるでしょう。
出典 : https://www.theregister.com/2024/06/27/alibaba_network_datacenter_designs_revealed/