本記事では、どの言語の文書からでも、文脈、質問、そして答えを含むRAGデータセットを作成する方法を紹介します。
リトリーバル方式を強化した生成モデル(RAG)[1]を利用すると、言語モデルが外部知識ベースにアクセスできるようになります。
PDFファイルをアップロードし、ベクトルデータベースに保存することで、ベクトル類似性検索を使ってこれらの知識を取り出し、追加の文脈として言語モデルのプロンプトに挿入できます。
これにより言語モデルに新しい知識が与えられ、事実でないものを生成する(幻覚)リスクを減らすことができます。
しかし、RAGパイプラインを構築するに当たり、設定すべき多くのパラメータがあります。それらの最適な選択法や、特定の使用例で本当に性能を向上させる新しい手法については研究が進んでいます。
そこで必要になるのが、我々のRAGパイプラインを評価するための妥当性試験/開発/テストデータセットです。データセットは、関心のある分野からのものでなければなりません。
出典 : How to Create a RAG Evaluation Dataset From Documents https://towardsdatascience.com/how-to-create-a-rag-evaluation-dataset-from-documents-140daa3cbe71