開発者の視点から見ると、コードは基本的な作業物であり、データはコードが正しく動いているかを確認するために必要です。しかし、機械学習を扱う人々にとってデータはもっと特別な意味を持っています。
データとコードは、開発者が目指す成果に不可分の関係にあります。モデルはトレーニングにデータを必要とし、Retrieval-Augmented Generation(RAG)のような先進的な実装では、さらに多くの文脈データが必要になります。
RAGでは、異なるソースからデータを収集し、変換し、ベクトル表現を生成し、特定のデータタイプを扱えるリポジトリに保存します。これにより、RAGが必要とするクエリ機能をサポートし、モデルが生成しようとするレスポンスに関連する正しいデータを見つけることができます。
従来の複数のデータソースからベクトルを格納する流れのサンプルアーキテクチャがこれには必要です。これは高校生でも理解できるように、日本語で简単に説明したものです。
出典 : How to improve LLM RAG responses using search data | AWS Marketplace https://aws.amazon.com/marketplace/build-learn/data-analytics/smarter-llm?trk=c3247c2f-c3e5-42aa-84a3-fc646d82e99e&sc_channel=el