大規模言語モデル(LLM)が医学試験で高成績を収めることができる一方で、実世界の医療アドバイスに関しては限界があることがオックスフォード大学の研究で浮かび上がりました。
研究では、LLMが提供する情報を基に正確な自己診断をすることが難しいことが明らかになりました。
患者が自分で正しい診断を下すことは、コントロールグループと比較しても低い結果であり、特にLLMに頼ったグループはさらに悪い成績でした。
これは、LLMを用いた対話が完璧な答えを出すとは限らないこと、特に人間との相互作用では予期せぬ結果を招く可能性があることを示唆しています。
研究者たちはLLMが他のLLMとうまく連携できることは明らかにしましたが、これは実際の人間の振る舞いを予測するには不十分です。
AI技術者たちにとって、この研究結果は人間とのインタラクションを意図したLLMの設計において、非対話的な基準にのみ依存することの危険性を教えてくれます。
人間を理解し、顧客体験を考慮した上で、LLMが人々に受け入れられるようにするための詳細なトレーニングとカリキュラムが必要とされているのです。
出典 : Just add humans: Oxford medical study underscores the missing link in chatbot testing https://venturebeat.com/ai/just-add-humans-oxford-medical-study-underscores-the-missing-link-in-chatbot-testing/