アバカス.AI、ニューヨーク大学、エヌビディア、メリーランド大学、南カリフォルニア大学のチームが、産業界の既存ベンチマークの「重大な限界」に対出する新しい基準「LiveBench」を開発しました。
これは汎用のLLM(大規模言語モデル)ベンチマークであり、トレーニング目的で多くのモデルに使用されるデータセットが「汚染」される問題を防ぐため、テストデータを汚染されていないものを提供しています。
LiveBenchは数学、コーディング、推論、言語、指示に従うこと、データ分析など幅広い難易度の課題を含んでおり、模範的な答えに基づいて自動的に採点されます。
AI研究の進捗を追跡し、性能を比較するための基準を提供するとともに、毎月新たな問題を公開することで、ベンチマークの「汚染」を最小限に抑えます。
また、メタのチーフAI科学者でありAIのパイオニアであるヤン・ルカン氏をはじめ、複数の専門家が参加しています。開発者はGitHubでLiveBenchのコードをダウンロードし、データセットをHugging Faceで入手することができます。
出典 : https://venturebeat.com/ai/livebench-open-ai-model-benchmark-contamination-free-test-data/