新時代のAI性能評価「LiveBench」登場

2024.06.14

WorkWonders

アバカス.AI、ニューヨーク大学、エヌビディア、メリーランド大学、南カリフォルニア大学のチームが、産業界の既存ベンチマークの「重大な限界」に対出する新しい基準「LiveBench」を開発しました。

これは汎用のLLM(大規模言語モデル)ベンチマークであり、トレーニング目的で多くのモデルに使用されるデータセットが「汚染」される問題を防ぐため、テストデータを汚染されていないものを提供しています。

LiveBenchは数学、コーディング、推論、言語、指示に従うこと、データ分析など幅広い難易度の課題を含んでおり、模範的な答えに基づいて自動的に採点されます。

AI研究の進捗を追跡し、性能を比較するための基準を提供するとともに、毎月新たな問題を公開することで、ベンチマークの「汚染」を最小限に抑えます。

また、メタのチーフAI科学者でありAIのパイオニアであるヤン・ルカン氏をはじめ、複数の専門家が参加しています。開発者はGitHubでLiveBenchのコードをダウンロードし、データセットをHugging Faceで入手することができます。

出典 : https://venturebeat.com/ai/livebench-open-ai-model-benchmark-contamination-free-test-data/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください