サイバーエージェントが導入した最先端の生成AI基盤「ML Platform」は、高速で効率的なGPU間通信を可能にするための特化したネットワークを採用しています。従来、データセンターは単一のネットワークで複数の用途を賄っていましたが、GPUサーバー同士の通信には広帯域かつ低遅延、そしてロスレスである必要があり、その要件を満たすためには専用のインターコネクトが不可欠です。
サイバーエージェントはこの課題に対し、NVLinkやRDMAといった技術を利用してGPUクラスター内のメモリ間で高速なデータ転送を実現。さらに通信規格にはイーサネットベースのRoCE v2を選択し、信頼性と運用のしやすさを確保しました。これにより、大規模な学習タスクを効率的に処理し、ネットワークの未来を形成しています。
出典 : https://businessnetwork.jp/article/21414/