人間の思考を基にしたAI評価機能の開発

2024.07.25

WorkWonders

ハーバード大学、マサチューセッツ工科大学(MIT)、シカゴ大学の研究者が、大規模言語モデル(LLM)の能力を評価する新たなメカニズムを提案しました。
これにより、多様な使用状況に由来する評価の難しさに対処しようとしています。
彼らは、人間がAI技術の評価にどのように一般化の原則を適用するかを調査するための方法を開発しました。
人々は他者の知識を推測し、それをLLMの性能評価に応用します。
LLMが難しい問題を解決できると示せば、関連する簡単な分野も得意であると期待されます。

この理論に基づき、研究者たちはほぼ19,000の例を含むデータセットを作成。
それを使って、人々がLLMのパフォーマンスをどのように推測するかを検証しました。
研究は、LLMに対する一般化が人間ほど容易でないことも明らかにし、AIモデルの将来的な運用に影響を与える可能性があるとしています。
シカゴ大学のアレックス・イマス教授は、人々がモデルの回答が正確である場面を理解していないとLLMの一般消費者使用に消極的になる可能性があると指摘。
また、この研究は、LLMが解決すべき問題を理解しているかどうかを評価する基礎となり、実世界でのパフォーマンス向上に役立つとも述べています。

出典 : Researchers seek LLM baseline in human interactions https://www.mobileworldlive.com/ai-cloud/researchers-seek-llm-baseline-in-human-interactions/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダース社は、生成AIの活用・導入について客観的な立場からご相談に応じています。

生成AIに関するご相談はこちらからご連絡ください。 当社のご支援実績はこちらからご確認ください。