Metaが開発した新しいAIアーキテクチャー「Byte Latent Transformer(BLT)」は、現在の言語モデルが直面している大きな問題、つまり個々の文字と信頼性のある作業ができない問題を解決するために生み出されました。
現行のAIシステムは、「mayonnaise」という単語中の「n」の文字数を数えるといった単純なタスクでも苦戦します。その原因は、これらのAIモデルがテキストをトークンと呼ばれる短い文字列に分割して処理するため、個々の文字への直接アクセスを失ってしまうからです。
BLTはトークンではなく、バイトレベルで直接データを処理します。このシステムは、データに応じて動的にバイトをグループ化し、計算要件を抑制します。単純で予測可能なテキストでは、BLTはバイトを大きなパッチに組み合わせ、複雑なテキストの場合は小さいパッチを作り、それらを処理するためにより多くの計算パワーを割り当てます。
Metaはこの新しいアーキテクチャが、個々の文字を理解することが要求されるタスクで既存の大型モデルよりも優れているとしています。わずか80億のパラメータを使用して、16倍のデータをトレーニングしたLlama 3.1を上回る性能を示しました。さらに、従来のシステムよりもスケーリングが効率的であるとも発表しています。
コードと研究結果はGitHubで公開されており、これにより珍しい言語やコンピューターコードの処理、事実に関するAIシステムの正確性を向上させるための進歩が加速されることが期待されています。
出典 : Meta’s new LLM architecture tackles fundamental flaw in how language models process text https://the-decoder.com/metas-new-llm-architecture-tackles-fundamental-flaw-in-how-language-models-process-text/