AI技術の進化において推論速度は重要な要素です。
GPUだけでは不可能とされる高速な推論が、CerebrasやGroqといったチップメーカーのAI専用アクセラレーターの登場により、可能になりました。
これは大容量のSRAMを利用することで、従来の帯域幅の問題を克服しているためです。
さらに、この推論速度を大幅に向上させる手法が「推測デコーディング」です。
小さいモデルを用いて初期出力を生成し、それを(メインの)大きなモデルが検証することで速度を2倍から3倍に上げることができると言われています。
実際に使うと速度向上以外にも、リソースの節約にも繋がります。
推測デコーディングは、モデルが大きくなる現在のAIトレンドの中で、高速かつ正確な推論を実現する手段として、注目されています。
短時間で正確な結果を得ることができれば、AI技術のさらなる活用が期待できるでしょう。
出典 : Intro to speculative decoding: Cheat codes for faster LLMs https://www.theregister.com/2024/12/15/speculative_decoding/