人類の知識の海であるインターネットも、AI研究者達が用いるデータには限界が近づいています。
AIの前進を牽引してきたのはネット上のデータへの飢えだったといえるでしょう。しかし、エネルギー要求の増大とデータセットの枯渇により、AIの進化は壁に直面しつつあります。
研究によれば、公開されているテキストデータは2028年までにAIモデルのトレーニングに必要なデータ量に匹敵すると予測されています。
さらに出版者が著作権で使用制限を強化するなど、データへのアクセスはますます困難になりつつあります。
AIの急速な発展が鈍る可能性もありますが、AI企業は合成データ生成やデータの多様化で打開策を探っています。
人工データや専門化された分野のデータを活用することで状況は少し遅れるかもしれませんが、根本的な解決には至りません。
一部では「大は小に勝る」という概念から離れ、特定のタスクに特化した小さなモデルの開発が進んでいます。
技術の進歩はAIの学習方法にも影響を与え、例えば、再読による効率の改善が見られます。
この危機はAIが迎える新たな挑戦であり、既存のデータに依存しない革新への道を探る時かもしれません。
皮肉にも、データの欠如がAIの次の進化を促すかもしれないのです。
出典 : The AI revolution is running out of data. What can researchers do? https://www.nature.com/articles/d41586-024-03990-2