コンピューターによるテキスト分析の新しい手法「TnT-LLM」が登場しました。
これは、大量のテキストデータから、重要な情報を整理して分類するための枠組みのことを指します。
まず最初に、文書の要約を行い、その情報を使ってタクソノミー(分類体系)を生成します。
その際、機械学習の手法である確率的勾配降下法(SGD)によって、データに基づいた最適なタクソノミーの更新が行われます。
さらに、生成したタクソノミーを用いて、テキストを効果的に分類し、この分類ラベルを使ってさらに簡便なテキスト分析ツールを訓練します。
このツールは、巨大なデータ集合に対してオフラインでのラベリングや、オンラインリアルタイムの分類のために用いることができるのです。
「TnT-LLM」は、今後のテキスト分析作業を大きく変える可能性を秘めています。
出典 : TnT-LLM: Automating Text Taxonomy Generation and Classification With Large Language Models | HackerNoon https://hackernoon.com/tnt-llm-automating-text-taxonomy-generation-and-classification-with-large-language-models