東京の科学研究所にて、日本語能力に特化した先進的な大規模言語モデル「Llama 3.3 Swallow」の開発に成功しました。このモデルは、70兆個のパラメータを持ち、GPT-4o-miniなどの現行モデルを凌駕する性能を誇ります。
開発は、東京の理科大学計算学部と産業技術総合研究所の協力により、Amazon SageMaker HyperPodを使用して行われました。また、チームは効率的な分散トレーニング手法を駆使し、計算リソースを最適化するためのツールも開発。
研究者や開発者は、Hugging Faceを通じてこのモデルにアクセスすることが可能で、適切なライセンスの下で商用利用も許可されています。
このプロジェクトでは、MLの研究者やエンジニアに情報共有を促すことを目指しており、訓練されたLlama 3.3 Swallowモデルは、日本語AIアプリケーションのイノベーションを刺激することでしょう。
出典 : Training Llama 3.3 Swallow: A Japanese sovereign LLM on Amazon SageMaker HyperPod https://aws.amazon.com/blogs/machine-learning/training-llama-3-3-swallow-a-japanese-sovereign-llm-on-amazon-sagemaker-hyperpod/