データ収集から機械学習(ML)モデルの展開に至るデータパイプラインの設計に新たな進化が見えます。データ工学チームが、収集・クリーニング・正規化・データストアまで対応し、ダッシュボードやMLモデルを構築します。
小規模チームであれば、これら全工程を自分たちで手掛ける必要がありますが、ここではFTIアーキテクチャとの統合も考慮しています。各コンポーネントが個別にどのように機能し、相互にどう関連するかを詳しく紹介します。
データ収集パイプラインは、Change Data Capture (CDC) や他の技術を使用して、Mongo DBと特徴抽出パイプライン間での連携を図ります。これによって、バッチ処理からストリーミング処理に変わり、データベース間の即時同期が保証されます。
独自の特徴抽出パイプラインではBytewaxという技術を採用しており、速度と信頼性に優れたRust言語で構築されつつも、Pythonのインターフェースを備えています。
最終的に、訓練されたMLモデルは判定を経て実際のシステムに組み込まれ、Qwakなどのクラウドサービスを利用してデプロイされます。この一連の過程は、AWSのようなクラウドサービスやComet MLといった開発支援ツールを使いながら進められ、最終的にはレストAPIを介してクライアントに提供されます。
出典 : https://medium.com/decodingml/an-end-to-end-framework-for-production-ready-llm-systems-by-building-your-llm-twin-2cc6bb01141f