Meta AIが開発した大型言語モデルの家族に新しい仲間「Llama 3」が加わりました。前作「Llama 2」を遥かに超える性能を誇り、8Bと70Bのパラメーターを持つバージョンがリリースされています。これらは基本型と命令チューニング型の2種類が存在し、標準的なベンチマークにおいて、同等のパラメーターサイズの他のモデルよりも優れた成績を収めています。
Llama 3は、公開されているテキストデータ15Tトークンを使用してトレーニングされており、Llama 2の7倍という膨大なデータ量です。アーキテクチャも刷新され、より優れたトークナイザーや効率的なGQAメカニズムが導入されました。また、コーディングや推論タスクのパフォーマンスを向上させるため、PPOやDPOといった方法で命令チューニング型がトレーニングされています。Meta AIは、このモデルに加えて、不安全なコードを検出する新たな安全ツール「Code Shield」も公開しています。
さらに、リリース後の初週だけで120万回以上のダウンロードがあり、600以上の派生モデルが開発者によってHuggingface上で利用可能となりました。将来的には、24K-GPUを搭載したGrand Tetonクラスターを用いて、400B以上のパラメーターを持つLlama 3のトレーニングも進行しているとのことです。
Llama 3は、AWS、GCP、Azureはもちろんのこと、Meta AIアシスタントにも組み込まれ、より多くのユーザーがそのパワーを体験できるようになりました。これらの進歩は、高校生でも理解できるほどに具体的で、未来のAIの可能性を感じさせるものです。
出典 : https://www.infoq.com/news/2024/05/meta-llama-3/