次世代データパイプラインと機械学習モデル構築の全貌

2024.03.22

WorkWonders

データ収集から機械学習(ML)モデルの展開に至るデータパイプラインの設計に新たな進化が見えます。データ工学チームが、収集・クリーニング・正規化・データストアまで対応し、ダッシュボードやMLモデルを構築します。
小規模チームであれば、これら全工程を自分たちで手掛ける必要がありますが、ここではFTIアーキテクチャとの統合も考慮しています。各コンポーネントが個別にどのように機能し、相互にどう関連するかを詳しく紹介します。

データ収集パイプラインは、Change Data Capture (CDC) や他の技術を使用して、Mongo DBと特徴抽出パイプライン間での連携を図ります。これによって、バッチ処理からストリーミング処理に変わり、データベース間の即時同期が保証されます。

独自の特徴抽出パイプラインではBytewaxという技術を採用しており、速度と信頼性に優れたRust言語で構築されつつも、Pythonのインターフェースを備えています。

最終的に、訓練されたMLモデルは判定を経て実際のシステムに組み込まれ、Qwakなどのクラウドサービスを利用してデプロイされます。この一連の過程は、AWSのようなクラウドサービスやComet MLといった開発支援ツールを使いながら進められ、最終的にはレストAPIを介してクライアントに提供されます。

出典 : https://medium.com/decodingml/an-end-to-end-framework-for-production-ready-llm-systems-by-building-your-llm-twin-2cc6bb01141f

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください