人工知能(AI)は日常生活に大きな影響を及ぼしていますが、その安全性にはまだ課題が残されています。イリノイ大学の研究者たちによる新プロジェクト「SLES」では、AIの基盤となる大規模言語モデル(LLM)の安全性向上に挑戦しています。
このプロジェクトでは$800,000のNSF賞金を受けて、LLMが誤った情報や一貫性のない情報、終端ユーザーに有害な情報を生成することを防ぎます。たとえば、患者からの質問に答える際にLLMが偽情報を生成すれば、誤った診断や治療につながるおそれがあります。ニュース記事の生成に利用した場合、内容の矛盾が誤解や誤情報を招くことも考えられます。
この問題に対処するため、研究者たちはLLMの生成物から人間がラベリングする従来の安全対策に依存せず、最適輸送理論に基づいて、LLMの出力から自動的に計算できる定量的な安全性指標を提案しています。この指標を利用すれば、ネットから取得した文書と組み合わせて、LLMが生成した情報の信頼性を評価し、誤情報を軽減する方法を提供できます。
また、オープンソースのLLMのモデルの微調整により、または閉じられたソースのLLMを安全にするための反復的な引き出しにより、生成される安全でない情報の可能性を減らすことができます。この研究は、AIアプリケーションの安全性を高め、分野の進展に貢献するだけでなく、教育や多様性への影響も期待されています。プロジェクトの成果は2つのカリキュラムを強化し、2025年秋から始まる大学院レベルのコースに取り入れられる予定です。
出典 : Improving the safety of LLM foundation models https://siebelschool.illinois.edu/news/safe-foundation-models