OpenAIやGoogleといった大手企業は、ウェブサイトのコンテンツを大規模な言語モデルの訓練に使用することを望まないウェブサイト運営者向けに、そのような利用を避ける方法を提供しています。この方法とは、robots.txtというファイルを編集して、ウェブクローラーに対してウェブサイトをスクレイピング(情報を収集)させないように指示するというものです。
しかし、robots.txtを編集したとしても、テクニカルな要件としてウェブクローラーがそれに従う必要はないため、全てのAI企業に対して効果を発揮するわけではありません。また、GoogleやOpenAIが事前に収集したデータを削除することはなく、他の多くの企業や研究目的でのスクレイピングを防ぐわけでもないことに留意が必要です。
ウェブサイトのオーナーは個々の状況に応じて、この指示を設定することで、自分のウェブサイトのコンテンツがAIの訓練資料として使われることに対する意向を表明できます。
出典 : https://www.eff.org/deeplinks/2023/12/no-robotstxt-how-ask-chatgpt-and-google-bard-not-use-your-website-training