グーグルの開発者向けイベントで発表された次世代のAIモデル「Gemma 2」の性能を正確に評価するには、新しい道具が必要です。
そのため、グーグルは「LLM Comparator」という新たな評価ツールを導入しました。このインタラクティブな視覚ツールを使用すると、LLM(大規模言語モデル)の答えの質や安全性を並行して比較できます。
このツールは、最新版本体とそれ以前のバージョンを比較する開発者向けに設計されており、両モデルの反応を多角的に分析する手助けをします。
とりわけ、Gemma モデル1.1が1.0よりどう優れているかを掘り下げることができ、細かい部分までのパフォーマンス評価に役立ちます。
例えば、あるモデルがより詳しい解説を提供していたり、情報の構成が優れていたりすることが明らかになります。
さらに、ユーザー独自の関数を定義して特定の要素をチェックすることも可能です。
このようにLLM Comparatorは、開発者がAIモデルをより役立つものにし、安全性を高めるための情報を提供します。
このツールは、グーグルの「Responsible Generative AI Toolkit」に含まれており、誰でも利用できます。
出典 : https://medium.com/people-ai-research/llm-comparator-a-tool-for-human-driven-llm-evaluation-81292c17f521