インペリアル・カレッジ・ロンドンの研究者たちは、大規模言語モデル(LLM)のトレーニングに使われるテキストや画像などのデータの著作権を守る新しい技術を提示しました。
彼らは、20世紀の地図作成者が使用した技法にヒントを得て、「著作権の罠」と呼ばれる独特な架空の文を元のテキストに埋め込むことで、トレーニング済みのLLM内でコンテンツの使用を検出できることを発見しました。
この技術は、フランスのチームと連携して、本物の効率的な言語モデルを使い、実際に「著作権の罠」をトレーニングセットに挿入して試験した結果、成功を収めました。
コンテンツの所有者は、文書集合に複数回「著作権の罠」を繰り返すことで、モデル開発者がデータをスクレイピングしてLLMをトレーニングした場合に、モデルの出力における不規則性を観察することでトレーニングを行った証拠を突き止めることができます。
開発者がトラップを取り除く技術を開発して検出を避ける可能性もありますが、この提案は著作権者やクリエーターの利益分配における透明性を高め、LLMトレーニングの過程をより公正にするための重要なステップとなるでしょう。
出典 : Phantom data could show copyright holders if their work is in AI training data https://techxplore.com/news/2024-07-phantom-copyright-holders-ai.html