医療分野の情報が大量に集積されたデータベース「The Pile」において、データ汚染という新たな脅威が明らかになりました。研究者たちは、ウェブから抽出された医療に関連する概念や薬品についてのデータセットの安定性と脆弱性を分析し、悪意ある情報が含まれている可能性があることを突き止めました。
人工知能を用いて生成された偽の医療記事を意図的に混入させ、機械学習モデルがどう反応するかを調査した結果、少量の偽情報でさえも医療情報の質に大きく影響する危険性があることが判明しました。
さらに、間違った医療情報を識別し除去する新しい手法として、バイオメディカル知識グラフを利用する防御アルゴリズムが開発され、非常に高い精度で有害な情報を識別できることが示されています。
これらの研究は、将来的に精密で安全な医療情報を提供するための一歩となるでしょう。
出典 : Medical large language models are vulnerable to data-poisoning attacks – Medicine https://www.nature.com/articles/s41591-024-03445-1