2024年のNeurIPSにおけるENLSPワークショップで注目を集めた論文について
簡単にご紹介します。現在の大規模言語モデル(LLMs)は、固定された計算リソースを使って一つひとつトークンを生成しますが、これにはリソースの無駄使いが伴います。この問題に対処するために、複雑さや内容に応じて計算リソースの要求が変わることを活用した新しいアプローチが研究されています。
私たちは、LLMsにおける適応型計算を体系的に研究し、LLMの各フィードフォワードネットワーク層に小さな補助モジュールを統合する新しいフレームワークを提案しました。
これにより、トークンは層ごとに小さなモジュールまたは大きなモジュールによって処理されるか、または完全に層をバイパスすることができるようになります。この方法で、トークンの「難易度」という新しい概念を導入し、追加の計算リソースから得られる恩恵を測定しています。
しかし、最適な適応型計算のパターンを見つけることは未だに挑戦です。実際には、機械は最適解とは異なる方法で動作してしまうことを明らかにしました。
この研究により、LLMsとMoEモデルに対する適応型計算の理論と実践の間にあるギャップを埋めるヒントを見出すことができるでしょう。
出典 : Duo-LLM: A Framework for Studying Adaptive Computation in Large Language Models https://machinelearning.apple.com/research/duo-llm