私たちは、ウェブページやPDF、メールなどの様々な非構造化されたテキストデータから情報を収集しています。これらのデータはAI、特に大規模言語モデル(LLM)にとって重要な情報源になります。しかし、AIがデータを効率よく理解し処理するには、AI対応の形式であることが必要です。特に、マークダウン形式は、シンプルで直感的な書式が特長で、AIにとって理解しやすいため適しています。
マークダウンは、プレーンテキストに特殊な文字を使って書式を指示するファイルで、見出しやリスト、リンクなど、ドキュメントの基本的な要素を簡単に作成できます。ObsidianやJina AI Reader、LlamaParseなどのツールを使用することで、文書を簡単にAI対応のマークダウン形式に変換し、大規模言語モデルでの分析に適した形に整えることができます。この手引きがあれば、誰でもAI分析を前に進める準備が整います。
出典 : Making Text Data AI-Ready https://towardsdatascience.com/making-text-data-ai-ready-81d7fa83fd58