MLエンジニアが大規模言語モデル(LLM)を訓練する際には、訓練期間をどのように見積もるかが大きな課題です。本記事では、LLMのサイズ、データ量、使用するGPUのパワーをもとに、訓練にかかる時間を概算するシンプルな手法を紹介します。
訓練では、トーケンごとの浮動小数点計算数(FLOPs)を算出し、選んだGPUの種類と数によって計算可能なFLOPS(毎秒の浮動小数点計算数)を推計します。これらを同じスケールで表現することで、モデルの訓練に必要な時間が計算できます。
LLMはGPUを使用して訓練されますが、実際の効率はネットワーク通信の効率に大きく依存するため、理論上のFLOPSと実際のFLOPSには差が存在します。訓練には数千台のGPUが連携して使用され、観測されたFLOPSと理論的最大値を比較したモデルFLOPS利用率(MFU)が重要です。
実例として、LLaMA 3.1(405B)は、約15.6兆トーケンがデータセットとして用いられ、訓練には16,000台のH100 GPUが使用されました。その結果、モデル訓練の総計算時間から、総訓練日数を導出する計算方法が提示されています。
この見積もり手法により、LLMの訓練コストも算出可能です。例えば、H100 GPUを1時間あたり$2で借りるとして、総コストはおおよそ5200万ドルになるでしょう。本記事では、その計算式も紹介しています。
出典 : How Long Does It Take to Train the LLM From Scratch? https://towardsdatascience.com/how-long-does-it-take-to-train-the-llm-from-scratch-a1adb194c624