次世代AIの評価指標が変わる!Galileoが発表した最新ランキングとは

2024.07.30

WorkWonders

サンフランシスコを拠点とするGalileo社は、企業向けに生成型AI(Gen AI)を開発するリーダーとして、最新の「Hallucination Index」を発表しました。
このインデックスは、OpenAI、Anthropic、Google、Metaなどのブランドから22のトップレベルの大規模言語モデル(LLMs)の性能をランク付けしています。特に今年の指標は、開発中および非公開のモデルを含む11のモデルが追加され、過去8ヶ月間でのLLMの急速な成長を表しています。

新しい評価尺度「Context Adherence」は、出力の不正確さを確認するためにGalileo社が独自に開発した指標で、コスト、精度、信頼性のバランスを企業が判断する手助けをします。モデルは、1,000から100,000トークンの入力でテストされ、短いコンテキスト(5,000トークン未満)、中程度のコンテキスト(5,000トークンから25,000トークン)、そして長いコンテキスト(40,000トークンから100,000トークン)の長さでのパフォーマンスが評価されます。

ガリレオ社のCEO兼共同創設者であるヴィクラム・チャタルジは、実世界のユースケースでモデルをテストすることで、AIチームとリーダーに、実際のデータをもとに適切なモデルを適切なタスク、価格で選択するための情報を提供することを目的としています。

このプラットフォームは、開発から監視、保護に至るまでのライフサイクル全体でAIチームをサポートするLuna™評価基盤モデル(EFM)を搭載しており、スタートアップからフォーチュン100の企業までのAIチームに使用されています。詳細は公式サイトでご覧いただけます。

出典 : Galileo Releases New Hallucination Index Revealing Growing Intensity in LLM Arms Race https://www.prnewswire.com/news-releases/galileo-releases-new-hallucination-index-revealing-growing-intensity-in-llm-arms-race-302208202.html

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください