2023年、OpenAIは英国議会で、著作権付きの素材抜きにAIの先端モデルを訓練するのは「不可能」と発言しました。AI業界では、オンラインから収集した素材を用いてAIモデルを訓練するのが一般的で、これが著作権侵害を主張する訴訟の波を引き起こしています。しかし、大言語モデルを著作権なしで訓練可能だとする証拠が提供された水曜日の発表により、事態が変わりつつあります。
フランス政府支援の研究者グループが、公開ドメインのテキストのみで構成された最大級のAI訓練データセットをリリースしました。また、公正に訓練された非営利組織Fairly Trainedは、著作権侵害なしで作成された大規模な言語モデルの初の認証を発行し、チャットGPTのような技術も異なる方法で構築できることを示しています。
シカゴの法律技術コンサルタント起業家である273 Venturesは、KL3Mという名前の言語モデルを開発しました。これは、著作権法遵守の法律、金融、規制文書を厳選した訓練データセット「Kelvin Legal DataPack」を用いています。
AI業界の変わり目を感じさせるこのニュースは、高校生にも理解しやすい形で提供されています。未来へと進むAI技術の動向に注目が集まっています。
出典 : https://www.wired.com/story/proof-you-can-train-ai-without-slurping-copyrighted-content/