学界によって開発された新しいベンチマークによると、LLM(Large Language Models)をベースとしたAIエージェントは、CRM(Customer Relationship Management)の標準的なテストで平均以下の成績を示しており、顧客の秘密情報の保護に対する理解が不足していることが明らかになりました。
セールスフォースのAI研究者らが指揮する研究チームは、合成データを使用した新しいベンチマークで、LLMエージェントが一連の動作を完了するための成功率が58%に過ぎないことを示しました。タスクが複数ステップを要する場合は、成功率が35%に落ち込むことが判明しています。
また、機密情報の扱いにおいても問題が浮き彫りになり、AIエージェントは秘密保持の意識が低く、これを向上させる試みがタスクのパフォーマンスに悪影響を与えることがよくあります。
研究チームは、既存のベンチマークがAIエージェントの能力や限界を厳格に測定しておらず、センシティブな情報の認識能力や適切なデータ取り扱いプロトコルへの遵守を十分に評価していないと主張しています。
この研究結果は、LLMを活用したAIエージェントの開発者やユーザーにとっては懸念材料かもしれませんが、リアルな企業のシナリオで求められる多面的な要求と現在のLLMエージェントの能力との大きなギャップを浮き彫りにしています。
出典 : LLM agents flunk CRM and confidentiality tasks https://www.theregister.com/2025/06/16/salesforce_llm_agents_benchmark/