MITの研究チームが、大規模言語モデル(LLMs)の評価方法に革新的な視点を提案しました。
この研究は、人間の一般化機能、つまり私たちがどのようにしてAIの能力に関する信念を形成し更新するかを考慮に入れています。
サーベイを通じて、人々が実際にLLMsと対話した際の一般化のパターンを明らかにし、従来の方法とは異なる評価方法を提示しています。
また、人間はAIが間違いを犯した時に、その性能に関する信念をより頻繁に更新することがわかりました。
研究者たちは、この知見を元に、より人間の期待に沿ったロバストなAIモデルの開発に役立てるべく、今後も研究を進めていく方針です。
一方でこの研究は、未だ探求が必要な課題も多く残しており、様々な人々がAIとどのようにやり取りするのか、またその文脈が一般化にどのように影響するのかなど、多岐にわたる未来の研究の可能性を示唆しています。
出典 : Humans often misjudge and place too much trust in AI performance https://www.earth.com/news/humans-often-misjudge-and-place-too-much-trust-in-ai-performance/