インターネットは誤情報で溢れており、多くの大規模言語モデル(LLM)は、このようなテキストを基にした学習を行っています。それでは、正確な情報が多ければ多いほど、偽情報を圧倒できるのでしょうか?
ニューヨーク大学の研究チームが、医療情報をどれだけLLMの学習データに含めると誤った回答を導き出すか調査しました。結果、学習データのわずか0.001%でも誤情報が含まれるとLLMは影響を受けることが明らかになりました。
この研究は、学習プロセスにおいて意図的に「毒」を盛るような場合に焦点を当てていますが、既存のLLMの学習セットに含まれるインターネット上の誤情報や、古くなった情報がメディカルデータベースに残る問題にも関連しています。
データ毒物と呼ばれるこの問題は、インターネット上の文章からLLMを学習させる際、意図的に特定の情報を注入することで、LLMがその情報を事実として受け入れる原因となります。この手法は、単にウェブにドキュメントを配置するだけで達成可能です。
「LLMの誤情報 – インターネットがもたらす影響を探る」では、わたしたちの情報生活と人工知能の未来に関する重要な議論を提起しています。
出典 : It’s remarkably easy to inject new medical misinformation into LLMs https://arstechnica.com/science/2025/01/its-remarkably-easy-to-inject-new-medical-misinformation-into-llms/