研究者たちは、従来の複雑な数値処理を必要とする言語モデルに対して、より簡単な計算で済む三値(-1、0、1)を用いた新しいLLM(大規模言語モデル)を開発しました。
第一に、独自のLLMを作成し、第二に自己注意メカニズムを改良して、MatMul-free Linear Gated Recurrent Unit(略称:MLGRU)を用いることで、連続した単語を基本的な算術操作で処理できるようにしました。
また、ちょうどDJがさまざまな音声チャネルをミックスして一つの曲を作るように、データの異なる特徴を組み合わせて変換する「チャネルミキシング」に必要な情報の流れを制御するため、三値を用いたGated Linear Unit(GLU)を適用しました。
これらの革新により、独自のハードウェア実装で、特に複雑な演算を必要としないFPGAチップを使って、三値演算の高速化を実現しました。
その結果、研究者たちは消費電力を削減しつつ、最先端モデルと同等のパフォーマンスを達成したとしています。これらのモデルは、GPUよりも計算リソースが限られたハードウェア上でも効率的に動作する可能性があります。
研究者は、SlimPajamaデータセットでコンパクトなモデルを事前学習し、さまざまなベンチマークタスクで従来のモデルと比べて競争力のある成績を収めたと報告しています。
一方で、パラメーター数が1000億を超えるような超大規模なモデルのテストは行われておらず、今後より多くのリソースを投入してさらに性能を向上させる余地があるとしています。
出典 : https://arstechnica.com/information-technology/2024/06/researchers-upend-ai-status-quo-by-eliminating-matrix-multiplication-in-llms/2/