メタが開発したAIスーパーコンピューターは、言語モデルのトレーニングなどに使用される巨大な計算リソースです。
この複雑なシステムは、数千の高性能GPUにより支えられており、その信頼性の問題が最近の論文で詳しく報告されました。
故障は避けられないもので、特に大規模なシステムほど、部品の不具合が頻繁に発生します。
例えば、4000個のGPUを利用するジョブでは、平均して10時間おきに何らかの故障が起こり、大量のGPUが関わるジョブでは故障率がさらに高まります。
大規模なトレーニングでは、一部の故障が全体の作業を中断させ、やり直しを余儀なくされるという課題に直面しています。
この問題に対処するためには、サーバーの冗長性を高めるなど、信頼性を向上させる工夫が必要とされています。
出典 : LLM開発は「スパコンの故障との戦い」、Metaが明かした驚くべき実態と対策 https://xtech.nikkei.com/atcl/nxt/column/18/00692/022000152/