近年、AI技術の発展に伴い、大規模なLLMアプリケーションを運用するには膨大な計算リソースが必要となっています。多くの場合、CPU上での推論の遅延が問題とされますが、インテル®拡張機能のPyTorch*IPEXなどのオープンソースツールを用いることで、
CPU上でもGPUに匹敵する推論速度を実現する進歩が見られます。特に、モデル量子化はニューラルネットワークの計算複雑度を大幅に下げる技術です。これには、FP32からINT8への重み削減が含まれ、計算負荷の軽減とメモリ使用量の削減に寄与します。
IPEXを使用したモデル量子化の手法には、Mixed-PrecisionやSmoothQuantなどがあり、これらにより推論速度を向上させることができます。ただし、これらの技術はある程度の言語モデリング性能の低下を引き受けることになりますが、多くの場合、1%未満に抑えられます。
モデルの簡略化は推論時の遅延を軽減し、コンピューティングインフラの拡張やアップグレードが無くても、LLM推論の遅延に対応可能です。このテクニックは、PyTorchで簡単に実装可能であり、IPEXは数行のコードで始められる選択肢として良いオプションを提供します。
出典 : https://towardsdatascience.com/improving-llm-inference-latency-on-cpus-with-model-quantization-28aefb495657