大規模言語モデル(LLM)を比較する業界標準のシステム「Chatbot Arena」が、特定の大手企業に有利との指摘が出ています。
カナダのコーヒアが発表した「The Leaderboard Illusion」という研究論文では、約200万回の対戦データを分析。
結果、とある企業が非公開のモデルで好成績を収める手法を用い、ランキングにゆがみが生じている可能性を示唆しています。
論文によれば、メタなど大手企業が非公開テストで予め複数のモデルを試し、良い結果を出したモデルだけを公開することで、不適切にランキングを操作している疑いがあるのです。
こうした問題点を踏まえつつも、AI開発者による改善が求められており、近年、ランキングの信頼性に疑問が投じられているのです。
AIランキングの透明性と公平性に再び光を当てるべき時が来たようです。
出典 : AI性能評価の業界標準に疑義 https://xtech.nikkei.com/atcl/nxt/mag/nc/18/040900481/060300005/