法律業界に革新をもたらす新基準 – Gen AI LLMのベンチマーク誕生

2024.09.04

WorkWonders

Gen AIスタートアップのHarveyが、実務法律タスクにおける大規模言語モデル(LLM)の性能を定量的に評価するためのベンチマーキングフレームワークを公開しました。
このフレームワークは、従来のより構造化された設定でのLLM法的推理の測定を補完します。
複雑な法律作業を評価するにあたり、Harveyは時間エントリーをモデルベースのタスクに変換し、実務エリアや取引・訴訟などのタイプ、問題の一部を占めるタスクによって分けました。

タスクごとに客観的な評価基準を開発し、誤ったトーン、長さ、関連性のない内容、有害性、幻覚に対してペナルティーを課しました。
スコアをベンチマークに変換するにあたり、否定的な基準にはマイナスの点数、肯定的な基準にはプラスの点数を割り当て、タスクごとに利用可能な点数の組み合わせで最終的なスコアを算出します。
また、回答の出所を評価するために、正確なソーシングは高スコア、トレーサビリティと検証の欠如は低スコアとしています。

Harveyは、他の先行する基礎モデルよりも優れた成績を示したとしています。
スタンフォード大学やイギリスの法的ITイノベーターグループも、Gen AIツールの出力を比較できるように規格化とベンチマーキングを進めています。
そうした中、HarveyのBigLaw Benchに関する評価について、Legal IT Insiderの主要アナリストであるNeil Cameronは、業界全体に受け入れられる基準モデルの登場には、競合する基準モデルの出現、調和、合理化、統合の過程が必要と述べています。

出典 : “The Gen AI LLM benchmarking war starts here”: Harvey releases new evaluation framework   https://legaltechnology.com/2024/09/03/the-gen-ai-llm-benchmarking-war-starts-here-harvey-releases-new-evaluation-framework/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダース社は、生成AIの活用・導入について客観的な立場からご相談に応じています。

生成AIに関するご相談はこちらからご連絡ください。 当社のご支援実績はこちらからご確認ください。