Amazon Bedrockの新機能、AIアプリの品質を自動で評価

2024.12.03

WorkWonders

Amazon Bedrockは、AIアプリケーションのテストと品質向上に役立つ新しい評価機能を発表しました。
こうすることで、AIパワードアプリケーションの自動評価を迅速に行い、フィードバックループを短縮し、改善を加速させることができます。
この新機能には、RAG(Retrieval Augmented Generation)アプリケーションおよびLLM(大規模言語モデル)を使ったモデル評価が含まれ、さまざまな品質次元が評価されます。これには、正確性、有用性、回答拒否や有害性などの責任あるAI基準が含まれます。

評価結果は、解釈しやすいように0から1の範囲で標準化されたスコアで提供され、ナチュラルランゲージでの説明が添えられます。
また、科学者でなくともスコアがどのように算出されるか理解できるように、判断基準が文書に公開されています。
開発者は、Amazon Bedrockコンソールで評価を作成し、必要な設定の調整を行うだけで、幅広い評価が可能になります。
これらの機能を通じて、より実運用に近い形でのAIアプリケーションの品質を確認し、最適な構成を見極めることができます。

これらの評価機能は現在プレビュー版としてAWSの一部のリージョンで利用可能で、地域によっては利用可能な評価モデルが異なりますが、Amazon Bedrockの標準価格に基づいた課金で、追加料金はかかりません。
現時点でサポートされているのは英語コンテンツですが、これらの機能が他言語にも対応していくことが期待されます。
興味のある開発者は、Amazon Bedrockコンソールへアクセスし、より詳細な情報を得ることができます。

出典 : New RAG evaluation and LLM-as-a-judge capabilities in Amazon Bedrock https://aws.amazon.com/blogs/aws/new-rag-evaluation-and-llm-as-a-judge-capabilities-in-amazon-bedrock/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください