言語モデルの新境地「アブリテレーション」とは?

2024.06.16

WorkWonders

AIの安全性を確保するため、事前学習した言語モデルは、特定の指示に従わないようにプログラムされています。しかし、これが表現の自由に対する制約となることも。そこに注目したのが「アブリテレーション」という技術です。
この技術は、AIが拒絶する有害な指示と、問題なく受け入れる無害な指示の処理の差を分析して、AIが拒否する動作を特定し、適宜、その拒否反応を解除するものです。
研究者マキシム・ラボンヌ氏によれば、アブリテレーションは表現の自由を取り戻しますが、品質の低下や倫理的な問題を引き起こすリスクもあり、慎重な評価と調整が必要だと言われています。

出典 : https://gigazine.net/news/20240614-llm-with-abliteration/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダース社は、生成AIの活用・導入について客観的な立場からご相談に応じています。

生成AIに関するご相談はこちらからご連絡ください。 当社のご支援実績はこちらからご確認ください。