GPT-2やGPT-3などの巨大なAI(人工知能)モデルは、膨大な計算能力とメモリを必要としますが、ただの高性能なハードウェアだけでは十分ではありません。
そこで、NVIDIAのMegatron-LMやMicrosoftのDeepSpeedといった特化したライブラリが開発され、これらの大規模なモデルを効率良く学習させる新しい手法が提案されています。
また、評価段階では、Giskardやlm-evaluation-harnessといったツールが使われ、複数の側面からAIモデルの能力を厳しい目でチェックします。
デプロイメントには、vLLMやCTranslate2というツールが優れた推論効率を提供し、実用段階でもAIモデルの性能を最大限に引き出すための支援をしています。
これらのテクノロジーは、近い将来、巨大なAIモデルをより多くの人々が手軽に使えるように変革するかもしれません。
出典 : https://hackernoon.com/the-open-source-libraries-to-check-out-for-llm-building