サンフランシスコを拠点とするGalileo社は、企業向けに生成型AI(Gen AI)を開発するリーダーとして、最新の「Hallucination Index」を発表しました。
このインデックスは、OpenAI、Anthropic、Google、Metaなどのブランドから22のトップレベルの大規模言語モデル(LLMs)の性能をランク付けしています。特に今年の指標は、開発中および非公開のモデルを含む11のモデルが追加され、過去8ヶ月間でのLLMの急速な成長を表しています。
新しい評価尺度「Context Adherence」は、出力の不正確さを確認するためにGalileo社が独自に開発した指標で、コスト、精度、信頼性のバランスを企業が判断する手助けをします。モデルは、1,000から100,000トークンの入力でテストされ、短いコンテキスト(5,000トークン未満)、中程度のコンテキスト(5,000トークンから25,000トークン)、そして長いコンテキスト(40,000トークンから100,000トークン)の長さでのパフォーマンスが評価されます。
ガリレオ社のCEO兼共同創設者であるヴィクラム・チャタルジは、実世界のユースケースでモデルをテストすることで、AIチームとリーダーに、実際のデータをもとに適切なモデルを適切なタスク、価格で選択するための情報を提供することを目的としています。
このプラットフォームは、開発から監視、保護に至るまでのライフサイクル全体でAIチームをサポートするLuna™評価基盤モデル(EFM)を搭載しており、スタートアップからフォーチュン100の企業までのAIチームに使用されています。詳細は公式サイトでご覧いただけます。
出典 : Galileo Releases New Hallucination Index Revealing Growing Intensity in LLM Arms Race https://www.prnewswire.com/news-releases/galileo-releases-new-hallucination-index-revealing-growing-intensity-in-llm-arms-race-302208202.html