現代では、かつて単純なゲームスコアを高めるために利用されていた強化学習モデルが進化し、あいまいな長期目標を追求する能力を持つようになりました。
特に、人工知能がマインクラフト内でコードを生成し、より複雑な一連の行動(スキル)を生み出す例が注目されています。開発過程では3つのフィードバック(実行エラー、環境フィードバック、他のAIによるレビュー)を通じて学習が進められます。スキルは、繰り返しのプロセス(イテレーティブプロンプティングメカニズム)を経てスキルライブラリに保存され、将来的にはこのライブラリがAIの競争力の鍵となる可能性があります。
しかしながら、AIが自律的に進化するにつれて、人々はその「逸脱」にどう対処するかという問題に直面しています。
単純に報酬機能を最大化することが複雑な環境での改善とは限らず、真のスキルアップかただの変化かを見極めることが新たな課題となるでしょう。また、直接人命に関わる領域では、AIが自由裁量を与えられることの危険性も考慮すべきです。進歩を止めるのではなく、人間とAIの知性が協力し合う形で解決策を見つけていくことが期待されます。
それは極めて興味深く、創造的な時代の到来を示しています。
出典 : https://towardsdatascience.com/tool-use-agents-and-the-voyager-paper-5a0e548f8b38