大規模言語モデルは便利だけれど、誤った情報や偏見が含まれるリスクも。その危険から我々を守るため、OpenAIはレッドチーミングというテクニックを採用し、AIの安全性を高めようとしています。
レッドチーミングとは、積極的にAIを駆使し、弱点を暴き出していく方法です。OpenAIは外部のテスターを多数採用し、モデルの振る舞いを詳しくチェックする一方で、自動化されたテストを行い、さらに多くの問題を発見しています。
この双方向のアプローチこそが、AIのリスクを理解し、我々の生活に安全に融合させる鍵となります。
出典 : LLMの暴走を防げるか?オープンAIが明かした「ストレステスト」の中身 https://www.technologyreview.jp/s/350318/how-openai-stress-tests-its-large-language-models/