大規模言語モデル(LLM)を小さく、早く、そして便利にするための技術、量子化の最新手法を紹介します。2022年に登場した「LLM.int8」は重みをFP16からINT8に変換し、モデルのサイズを半分に削減します。
また「GPTQ」は量子化を一度に実施する手法であり、「QLoRA」は2023年に登場したLoRAを基にした高度な方法です。
この他にも、効率的な「AWQ」や分散を改善した「QuIP
」、そしてCPU上での実行に特化した「GGUF」などがあります。
これらの技術は、モデルのサイズとパフォーマンスのトレードオフを考慮しながら、デバイスのメモリ制限内で使用することを可能にします。
最新技術「AQLM」は、特に2ビットのパラメーター範囲で新しい基準を設け、高速かつコンパクトな言誴処理を実現しています。
これらの技術により、高度な言語処理が私たちのポケットにも収まる日が近づいています。
高校生でも理解できるように、モデルの容量を削減しつつ性能を維持する素晴らしい方法を簡単に学べるチャンスです。
出典 : https://towardsdatascience.com/the-ultimate-handbook-for-llm-quantization-88bb7cb0d9d7