最近、個人プロジェクトのためにオープンソースのレシピデータセットを探していましたが、公開されているものは見つからず、ただ一つのGitHubリポジトリだけが見つかりました。
残念ながら、私の求めるより使いやすいデータ形式が必要でした。そこで、私は大言語モデル(LLM)の力を利用して、生のテキストデータを構造化されたドキュメントに自動変換する方法を見つけ出しました。
元のデータセットはマークダウンファイルのコレクションですが、この生データをより扱いやすいJSON形式に変換するパーサがあります。変換後のデータは、レシピ推薦チャットボットの構築にも使われています。
それでもなお、レシピの材料や調理手順など詳細な情報が隠れているため、さらに構造化が可能です。
この記事では、LLMを使用して、マークダウンの生のレシピデータから、以下のようなJSONドキュメントに変換する過程を紹介します。LLMとの連携やデータフォーマットには、langchainやpydanticなどの強力なライブラリが利用されています。
さらに、成果物の一連のコードはGitHubで共有されており、全データセットの実行コストは2ユーロ未満と非常に経済的です。
大言語モデルは、非構造データを構造化するための強力なツールを提供します。人間の言葉のニュアンスを理解し、時間のかかる作業を自動化し、進化するデータに適応する能力により、ビジネスの意思決定や成果に変革をもたらします。
この技術の可能性はまだまだ開拓されており、私たちはこれからもLLMの可能性を最大限に活かす道を進むのです。
出典 : https://towardsdatascience.com/the-lesser-known-rising-application-of-llms-775834116477