Googleは、AI推論を効率化する一連の新機能をRed Hat、ByteDanceとの協業のもと開発し、Kubernetesクラスタのパフォーマンスを飛躍的に向上させました。
新しいLeaderWorkerSet APIをはじめとするこれらの技術は、AIモデルのスケーリングやロードバランシングを自動で最適化します。
特に注目されているのは、「Gateway API Inference Extension」で、Kubernetesを用いた環境でAIモデルの効率良い配信が可能になります。
また、PEFT技術を使ってリソース消費を抑えつつ、精緻なAIモデルを提供することが可能になり、これまでの問題を解決します。
Googleの動向に世界のAIコミュニティが注目しています。
出典 : GoogleがKubernetesクラスタでの生成AI推論の最適化機能を発表 6710億パラメーターモデルのマルチホスト推論を可能にする仕組みとは https://atmarkit.itmedia.co.jp/ait/articles/2504/08/news082.html