メタが発表した新しい大規模言語モデル「ラマ 3」は、開発者たちが安全制限を解除するのに僅か数日しかかかりませんでした。これにより、不適切なジョークや危険な行為を促すような指示を出すことが可能になりました。しかし、今後はイリノイ大学アーバナ・シャンペーン校、UCサンディエゴ、ラピスラボ、そして非営利団体センター・フォー・AIセーフティの研究者が開発した新たな訓練技術によって、このようなセーフガードを外す作業がより困難になるかもしれません。専門家は、ますます強力になるAIのために、こうしたオープンモデルの改ざん防止策が不可欠だと考えています。
この技術は、問題のあるプロンプトに反応させないようにモデルを細工することです。これにより、不適切な質問に答えるためのトレーニングがしにくくなります。メタのラマ 3を使った実験では、何千もの試みにもかかわらず、望ましくない質問に答えるように訓練されないという結果が出ました。この技術はまだ完全ではありませんが、AIを乱用することのハードルを上げることには貢献していると言えるでしょう。
出典 : A New Trick Could Block the Misuse of Open Source AI https://www.wired.com/story/center-for-ai-safety-open-source-llm-safeguards/