カリフォルニア大学サンディエゴ校のキャメロン・R・ジョーンズとベンジャミン・K・バーゲンの研究者たちは、AIと人間を見分けるための新たな「第三者によるターニングテスト」を実施しました。
対象となった4つの大規模言語モデル(LLMs)は、ELIZA、GPT-4o、LLaMa-3、GPT-4.5で、ランダムかつコントロールされた試験で2種類のプロンプトが使われました。
一つ目は「BASELINE NO PERSONA」、もう一つは「PERSONA」プロンプトです。
試験では、AIは「人間であることを証明する」よう促され、また特定の人格を演じるよう指示されました。
参加者は全部で254名おり、8ラウンドのテスト後に出口調査が行われました。
研究者たちは、参加者がAIと人間のどちらからの応答を受けているかを識別するテストを行い、その結果に一部懐疑的であることを述べています。
ジョーンズは、LLMsが人間と区別がつかないレベルに達した強い証拠を持つ一方で、「ターニングテストの実装方法については曖昧さがある」と指摘しています。
また、プロンプトなしでLLMsが成功するかどうかは疑問だとも言及しています。
ネット上では様々な反応が見られました。ゲイリー・マーカスは、勝利宣言が早計だとし、LLMsの言語理解を確かめる新たなテストを提案しています。
Redditのユーザーは、AIが人間を超えた性能を持っていればターニングテストに失敗するため、はっきり判断できないと不満を述べています。
また、より専門的な話題になると試験は難しいだろうという意見もあります。
一方、冗談めかして、LLMsには「ブレードランナー」の世界に出てくるヴォイト・カンプフ試験を受けさせるべきだと提案する声もありました。
この試験は、プロヴォカティブな質問に対する感情反応を測定するという架空のツールでした。
出典 : Two AI Models Pass The Turing Tests; The Internet Wants Them To Face The Voight-Kampff test From Blade Runners https://in.mashable.com/tech/92211/two-ai-models-pass-the-turing-tests-the-internet-wants-them-to-face-the-voight-kampff-test-from-blad