メタAIが開発したLlamaは、7億から70億のパラメータを持つ大規模言語モデルです。
Llamaの特徴は、トランスフォーマーに基づくデコーダー専用のモデルアーキテクチャで、文章生成に特化しています。新しいモデルを一から訓練するには、兆単位のトークンを含むデータセットが必要で、技術的な挑戦、時間、そして費用がかかる作業です。
この記事ではAWS Trainiumを利用して、128ノードまでスケールアップし、トレーニングを高速化する方法を紹介します。
我々は、復旧の効率性や訓練の安定性を考慮したベストプラクティスを共有し、Llama 2-7Bモデルを使用して、品質がオープンソース版と同等であることを証明しました。多様なタスクにわたるモデル品質の評価や、Trainiumのスケーリング利点についても詳述します。
また、100ノード以上に跨る分散トレーニングの課題についても取り上げ、高性能計算クラスターへの柔軟なアクセス、ハードウェアの安定性維持、モデルの訓練安定性など、多大な努力が必要であることを解説しています。
出典 : https://aws.amazon.com/blogs/machine-learning/end-to-end-llm-training-on-instance-clusters-with-over-100-nodes-using-aws-trainium/