マイクロソフト社が開発した、新しい大規模言語モデル(LLM)が注目されています。
このモデルは、1ビット(具体的には1.58ビット)の精度を使用しており、従来のモデルに比べてハードウェアに掛かる負荷が大幅に軽減されています。
さらに、そのモデルは無料で実験可能で、スマートフォンなどの小型デバイスでの運用が期待されています。
2億パラメータ規模のこのモデルは、教育的なウェブページや大規模なウェブクロールから得られたデータを使ってトレーニングされ、言語理解、数学的推論、プログラミングスキル、そして対話能力など多岐にわたるベンチマークでの評価を受けています。
記憶容量の面でも、先代のモデルが1.4GBを使用していたのに対し、たった400MBで済むため、省スペースかつ高性能を兼ね備えています。
しかも、このモデルはマイクロソフト独自のシステムで動作することを意識して設計されており、従来のフレームワークでは使えません。
トレーニングプロセスは3段階あり、特に興味深いのは、会話技術の向上を目指す段階です。
このモデルは、対話データを用いた細かなチューニングを経て、ユーザーの好みに合わせて最適化されます。
出典 : Microsoft’s New Compact 1-Bit LLM Needs Just 400MB of Memory https://tech.yahoo.com/articles/microsofts-compact-1-bit-llm-130542337.html