文書を「アイデア」単位で分割し、独立した知識として整理する手法を、GPT-4などの大規模言語モデル(LLM)を使って解説します。
この技術は文章を概念ごとに分けることで、異なるアイデアが混在しないようにします。
長さが異なるブロックへの分割が必要で、各ブロックをさらにアイデア単位でチャンクに分けます。
ちょうど良いサイズでのブロック生成が重要で、その後の実践的な応用へとつなげる方法も紹介予定です。
すべてのコードと例がリポジトリ「LLMChunkizer」で公開されており、容易にアクセスできます。
出典 : Efficient Document Chunking Using LLMs: Unlocking Knowledge One Block at a Time https://towardsdatascience.com/efficient-document-chunking-using-llms-unlocking-knowledge-one-block-at-a-time-355717a88c5c