AIの安全性を確保するため、事前学習した言語モデルは、特定の指示に従わないようにプログラムされています。しかし、これが表現の自由に対する制約となることも。そこに注目したのが「アブリテレーション」という技術です。
この技術は、AIが拒絶する有害な指示と、問題なく受け入れる無害な指示の処理の差を分析して、AIが拒否する動作を特定し、適宜、その拒否反応を解除するものです。
研究者マキシム・ラボンヌ氏によれば、アブリテレーションは表現の自由を取り戻しますが、品質の低下や倫理的な問題を引き起こすリスクもあり、慎重な評価と調整が必要だと言われています。
出典 : https://gigazine.net/news/20240614-llm-with-abliteration/