人間の思考を基にしたAI評価機能の開発

2024.07.25

WorkWonders

ハーバード大学、マサチューセッツ工科大学(MIT)、シカゴ大学の研究者が、大規模言語モデル(LLM)の能力を評価する新たなメカニズムを提案しました。
これにより、多様な使用状況に由来する評価の難しさに対処しようとしています。
彼らは、人間がAI技術の評価にどのように一般化の原則を適用するかを調査するための方法を開発しました。
人々は他者の知識を推測し、それをLLMの性能評価に応用します。
LLMが難しい問題を解決できると示せば、関連する簡単な分野も得意であると期待されます。

この理論に基づき、研究者たちはほぼ19,000の例を含むデータセットを作成。
それを使って、人々がLLMのパフォーマンスをどのように推測するかを検証しました。
研究は、LLMに対する一般化が人間ほど容易でないことも明らかにし、AIモデルの将来的な運用に影響を与える可能性があるとしています。
シカゴ大学のアレックス・イマス教授は、人々がモデルの回答が正確である場面を理解していないとLLMの一般消費者使用に消極的になる可能性があると指摘。
また、この研究は、LLMが解決すべき問題を理解しているかどうかを評価する基礎となり、実世界でのパフォーマンス向上に役立つとも述べています。

出典 : Researchers seek LLM baseline in human interactions https://www.mobileworldlive.com/ai-cloud/researchers-seek-llm-baseline-in-human-interactions/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

【お知らせ】
弊社ワークワンダース社主催ウェビナーのご案内です。


<2025年1月21日実施セミナー>

生産性を爆上げする、「生成AI導入」と「AI人材育成」のコツ


【内容】
1. 生産性を爆上げするAI活用術(安達裕哉:ワークワンダース株式会社 代表取締役CEO)
2. 成功事例の紹介:他業種からAI人材への転身(梅田悟司:ワークワンダース株式会社CPO)
3. 生成AI導入推進・人材育成プログラム「Q&Ai」の全貌(元田宇亮:生成AI研修プログラム「Q&Ai」事業責任者)
4. 質疑応答



日時:
2025/1/21(火) 16:00-17:30

参加費:無料  
Zoomビデオ会議(ログイン不要)を介してストリーミング配信となります。



お申込み・詳細 こちらウェビナーお申込みページをご覧ください

(2024/12/11更新)