RAGsの性能を人間レベルに近づけるチャンキング技術

2024.08.29

WorkWonders

RAGs、つまり関係性を理解するアルゴリズムは、文章を適切な「かたまり(チャンク)」に分けることで性能が飛躍的に向上します。
チャンクを作るプロセスは、テキストを意味のある単位に分割することで、RAGアプリの出力の質と速度が大きく左右されるため極めて重要です。
一般的に用いられる再帰的な文字分割は、窓の大きさが固定されたスライドウィンドウ手法を使用していますが、テーマを完全に捉えるには限界があります。
また、コンテキストが異なるチャンクに分断されるリスクも存在します。

私が特に推奨するのは、意味の変化を検知してテキストを分割する「意味分割」です。
この方法では長さに制限がなく、より精確に異なるテーマを捉えることが可能です。
しかし、この手法にも問題点があります。
次世代RAGsに最適なチャンキングテクニックとその課題についての詳細は、本文で展開しています。

出典 : How to Achieve Near Human-Level Performance in Chunking for RAGs https://towardsdatascience.com/agentic-chunking-for-rags-091beccd94b1

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください