AIランキング操作疑惑？メタのLLM評価問題とそれに対する反応

生成AIニュース

2025.04.10

WorkWonders

メタ社が非公開の特別仕様のAIモデル「Llama 4」をオンラインのベンチマークに投稿し、ランキングで不正に有利な位置につけた疑いが持ち上がりました。このモデルはLMArenaというサイトにアップロードされ、他のモデルと比較されて人気を競うコンテスト形式で評価されていました。
しかし、公開モデルとの性能に差があることから一部で批判が起こり、結果に疑惑の目が向けられています。メタ社は実験的なカスタムモデルであることを認めつつ、「開発者が自分の用途に合わせてカスタムすることを期待している」と述べています。
LMArenaはこの件に対し、公平な評価を保つためにリーダーボードのポリシーを更新し、今後はこのような混乱を避ける方針を示しています。メタ社の件はベンチマークのテストセットを利用してトレーニングされたのではないかという疑惑に対しても、同社は否定しています。

出典 : Meta accused of Llama 4 bait-n-switch to juice LMArena rank https://www.theregister.com/2025/04/08/meta_llama4_cheating/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】