データベースやメール、技術マニュアルなど多様な形式で溢れる組織内データを、大規模言語モデル(LLM)で検索する際の前処理を学びましょう。
Unstructuredの解説によれば、前処理は「変換」「クリーニング」「チャンク化」「要約」「埋め込み」の5ステップが鍵です。
まず、変換では、データを構造化し、不要なコンテンツを排除。これにより、処理の効率化が図れます。
チャンク化で文書は意味のある単位に分割され、セグメント内の関連性が重視されます。
要約により、データの本質を抽出し、画像や表なども発見しやすくなります。
そして、埋め込みで意味をエンコード、意味の類似性に基づいての検索が可能に。
これによりデータ全体がRAGに最適化され、検索結果の精度が飛躍的に向上します。
興味がわいた方は、ぜひ詳細をチェックしてみてください。
出典 : https://article.auone.jp/detail/1/3/7/48_7_r_20240505_1714914132601159