MITとIBMの研究チームが、AIの安全性を向上させる新たな手法として「自己規律型自己回帰サンプリング(SASA)」を開発しました。この技術では、大規模な言語モデル(LLM)が自分の言葉で有害な表現を排除するよう設計されており、モデルの再訓練や外部の報酬モデルなしで実装可能です。
AIが生成する危険な言葉を軽々と見分け、安全で自然な言葉選びを行うことができます。特に、女性に関するプロンプトに対するバイアスの軽減にも成功したことが注目されています。
この技術は教育現場など、安全性が求められる場面でAIを利用する際の負担を軽減し、将来的にはAIの価値観を多様なものに調整できる可能性も秘めています。
出典 : MIT-IBM Watson AIラボ開発、LLMが自ら有害表現を浄化する新技術「SASA」 – イノベトピア https://innovatopia.jp/ai/ai-news/51618/