最先端のクラウドベースの大規模言語モデル(LLM)プラットフォームを比較研究しました。
プラットフォームごとのセーフティ対策、いわゆるガードレールの機能と効果は、悪意のある入力から無害なクエリに至るまで様々なプロンプトへの対応を検証。
これには、誤って安全な内容をブロックする偽陽性(FP)と有害な内容を見逃す偽陰性(FN)が含まれます。
ガードレールは単なるフィルターとして機能し、AIモデルのトレーニングを変更することなく更新や変更が可能です。
一方で、モデルのアライメントは、AIを人間のフィードバックから学習させるリアルなトレーニング手法です。
この違いが、様々なシナリオにおけるガードレールの有効性に影響を与えます。
ベンチマークテストでは、複数の教育プラットフォームが多様な有害なプロンプトをブロックできることを示していますが、その有効性には差があります。
仮想のストーリーの一部として組み込まれた有害な要求をブロックすることの重要性にも注目し、安全でない応答がフィルターを何回か通過した例も説明しました。
この研究は、有害な入力と出力を避けるためのシステムと方法論を示し、未来への懸念を示唆しています。
個々のプラットフォームのセーフティ対策を理解し、必要に応じて追加の製品やサービスを利用することが重要です。
出典 : How Good Are the LLM Guardrails on the Market? A Comparative Study on the Effectiveness of LLM Content Filtering Across Major GenAI Platforms https://unit42.paloaltonetworks.com/comparing-llm-guardrails-across-genai-platforms/