生成AIが著作権で保護されたコンテンツを無断で学習し、業界には著作権侵害の訴訟が増えています。
開発企業はデータ利用の詳細を明かさない状況が続いていましたが、この透明性の欠如が研究の進展を妨げている懸念もあります。
そんな中、「Common Pile」という公開された8TBの巨大なテキストデータセットが、AI業界に新しい可能性を提示しています。
Common Pileは、パブリックドメインやオープンライセンスのコンテンツのみで構築されており、その結果、新しい言語モデル「Comma」は既存の高性能モデルと比べても互角以上の能力を示すことができました。
これは、著作物を無許可で利用することなく高性能なAIを作ることが可能であるという業界の常識を覆す成果と言えるでしょう。
データセットの品質や混ぜ方の工夫が、Commaモデルの性能の秘密です。
さらに、EleutherAIの取り組みは、データセットを倫理的に公開してAI開発を進めるという新しい流れを生み出し、オープンで透明なAI開発のモデルを示しました。
Common Pileは、著作権問題を解決し、AIの未来を切り開く一歩となりそうです。
出典 : AIの著作権問題に終止符か? 8TBの巨大オープンデータセット「Common Pile」登場、Llama 2に匹敵するLLMもリリース https://xenospectrum.com/8tb-massive-open-dataset-common-pile-now-available/