AIの危機? モデル崩壊とは何か、そしてその解決策

生成AIニュース

2024.07.27

WorkWonders

現代では、大規模言語モデル（LLM）のようなAIがインターネット上の膨大なデータを教材にして学習しています。
しかし、インターネットには偏見が含まれ、しばしば虚偽の情報に溢れているため、合成データを使用する新しい学習方法が提案されています。
だが、英国の一流大学の研究者グループは、他のモデルによって生成されたデータでトレーニングすると、「モデル崩壊」という問題が発生すると警告しています。

モデル崩壊とは、学習したモデルが生成するデータが、次の世代のモデルのトレーニングデータを汚染する退行過程のことです。
インターネットがLLM生成のゴミに満ちると、問題はさらに深刻になります。
これには3つの原因があり、「統計的近似誤差」、「機能的発現能力誤差」、「機能的近似誤差」が含まれます。
研究者たちは、オリジナルデータへのアクセスを保ち、LLMによって生成されていないデータを時間をかけて利用できるようにすることで、問題に対処することを提案しています。
さらに、LLMの作成と配置に関わる異なる当事者間の協調を強調しています。
これにより、技術の大衆化前にインターネットからクロールされたデータや、大規模な人間によって生成されたデータへの直接アクセスなしに、新しいバージョンのLLMをトレーニングすることが難しくなる問題が解消される可能性があります。

出典 : AI-generated data causes LLM model collapse: Researchers https://www.thestack.technology/llm-model-collapse/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】