アリババは、最新のLLMトレーニング、いわゆる超大規模な言語モデル学習用に特化したデータセンターの設計を公開しました。
この設計では、1つのホストに8つのGPUと、それぞれ200GB/秒の速度を持つ9つのNICを組み込むイーサネットベースのネットワークを採用しています。
これにより、GPUのPCIe機能の利用率を最大化し、ネットワークの送受信容量を増加させることが出来ているとのことです。
同社は、1100億のパラメーターで訓練された高性能なLLM「Qwen」モデルも提供しています。
ネットワークの改良により、トラフィックのエントロピーが低く突発的な傾向のあるLLMトレーニングに最適な環境を作り出し、さらに故障や単一点の障害に対する感度も高めています。
一つのホスト内での接続はNVlinkを介して行われ、複数のホスト間で更に高い帯域幅を確保、各NICのポートは異なるトップオブラックスイッチに接続されており、単一点故障を避ける工夫もされています。
また、15,000個のGPUが1つのポッドに収められており、それぞれのデータセンターに設置可能です。
アリババは、今後数年でモデルパラメータが1兆から10兆に増えると予測し、この新しいアーキテクチャがその規模拡大に対応し、10万個のGPUを搭載することができるとしています。
出典 : https://www.techradar.com/pro/website-hosting/alibaba-unveils-its-network-and-datacenter-design-for-large-language-model-training