最近、「TEAL(Training-Free Activation Sparsity in LLMs)」という技術が、大規模言語モデル(LLMs)の効率を改善するための新しいアプローチとして注目されています。この手法は追加のトレーニングを必要とせず、モデル内の隠れ状態に対して量子化を適用することで、40-50%の活性化スパーシティを実現し、ごくわずかな性能の低下しか生じません。
このイノベーションはチップ内メモリへの重みの転送を減らすことを可能にし、LLMの推論時におけるメモリの壁に対処します。それによって、単一バッチのデコーディングで最大約1.8倍の速度向上が見込まれます。
さらに、TEALは量子化という別の効率的なインファレンス手法との互換性も示しているため、GPUレジスタにメモリを移行する新たな方法が可能となります。この技術の最も着目すべき応用例として、リソースに制約があるエッジ環境での推論速度の加速や、単一バッチシナリオにおいて特に有益です。
また、Together AIのような推論プロバイダーにとっても、100以上のオープンソースモデルを効率よく提供する方法として役立ちます。これらの進展は、AIの未来をさらに効率的かつスピーディにすることでしょう。
出典 : TEAL Introduces Training-Free Activation Sparsity to Boost LLM Efficiency https://blockchain.news/news/teal-introduces-training-free-activation-sparsity