Nejumiリーダーボード Neoとは? 日本最大級のLLM評価の全貌

2024.08.27

WorkWonders

日本最大級となった「Nejumiリーダーボード Neo」は、世界中のオープンモデルを多面的かつ視覚的に評価するサービスです。
一問一答形式の評価では、Jasterを利用して常識的推論を含む様々なタスクでモデルをテストします。ここで採用されるのは、モデルが自然言語で答えを生成する「テキスト生成式」の方式です。
一方、MT-benchを使用した会話形式では、1つの回答から新たな質問に繋げるマルチターンでの評価を行い、モデルの表現力や流暢性を検証します。
評価は、模範解答とモデルの答えを照らし合わせ、GPT-4を使って正誤を判定する方法で行われます。「Nejumiリーダーボード」は、現代のLLMがどれだけ進化しているかを知るための重要なベンチマークとなっています。

出典 : LLMの日本語能力は? リーダーボード「Nejumi.ai」の開発・運営から見えてきた課題 https://codezine.jp/article/detail/19784

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください