Googleの研究者たちは、あるシンプルな手法を使って、ChatGPTが蓄積した膨大なテキストデータを引き出すことに成功しました。
この方法は、ただひたすらにChatGPTに同じ単語を繰り返させることです。通常、ChatGPTのような言語モデルは、インターネット上で集められたデータを使ってトレーニングされていますが、その具体的内容は公開されていません。それが、研究者たちのこの攻撃手法であぶり出されることになりました。
従来のモデルと異なり、ChatGPTは運用中の製品版モデルであり、API経由でしかアクセスできない上に、データ抽出への対策も施されていると考えられる状況でした。
それでもこの方法を用いると、一定の確率でトレーニングデータが出力されることが分かり、その真偽を確かめるために、インターネット上のデータと照らし合わせる作業も行われました。
研究チームはこの攻撃手法について詳しく解析し、得られた成果をOpenAIと共有、最終的には論文として公開したのです。
この発見は、AIの安全性とプライバシーに関わる新たな議論を生み出す可能性を秘めています。
出典 : https://gigazine.net/news/20231130-extracting-training-data-from-chatgpt/