大規模言語モデルの訓練期間の見積り方

2024.10.31

WorkWonders

MLエンジニアが大規模言語モデル（LLM）を訓練する際には、訓練期間をどのように見積もるかが大きな課題です。本記事では、LLMのサイズ、データ量、使用するGPUのパワーをもとに、訓練にかかる時間を概算するシンプルな手法を紹介します。

訓練では、トーケンごとの浮動小数点計算数（FLOPs）を算出し、選んだGPUの種類と数によって計算可能なFLOPS（毎秒の浮動小数点計算数）を推計します。これらを同じスケールで表現することで、モデルの訓練に必要な時間が計算できます。

LLMはGPUを使用して訓練されますが、実際の効率はネットワーク通信の効率に大きく依存するため、理論上のFLOPSと実際のFLOPSには差が存在します。訓練には数千台のGPUが連携して使用され、観測されたFLOPSと理論的最大値を比較したモデルFLOPS利用率（MFU）が重要です。

実例として、LLaMA 3.1（405B）は、約15.6兆トーケンがデータセットとして用いられ、訓練には16,000台のH100 GPUが使用されました。その結果、モデル訓練の総計算時間から、総訓練日数を導出する計算方法が提示されています。

この見積もり手法により、LLMの訓練コストも算出可能です。例えば、H100 GPUを1時間あたり$2で借りるとして、総コストはおおよそ5200万ドルになるでしょう。本記事では、その計算式も紹介しています。

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください

↓10秒で登録できます。↓