BBCは自社のニュース記事の要約における誤情報の問題を分析しました。四つの大型言語モデルが、
BBCの記事を参照してニュースに関する質問に答えた際に、不正確さや誤った引用、誤表現などが見られることが明らかになりました。
BBCの責任あるAIチームは、過去1年間のGoogle検索トピックスに関連する100のニュース質問を集め、
これらをChatGPT-4o、Microsoft Copilot Pro、Google Gemini Standard、Perplexityの4つのモデルに試してもらいました。
BBCのジャーナリスト45人が回答を精査し、50%以上の回答で重大な問題点があると判定されました。
特にGoogle Geminiがもっとも問題が多く、およそ60%の回答で顕著な問題が見つかりましたが、Perplexityは40%以上で問題が比較的少なかったです。
最も多かった問題は不正確さで、すべてのモデルで回答の30%以上に顕著な問題が認められました。
実際、BBCの記事からの引用とされている回答の13%で、その引用が原文から変更されていたり、元の記事には存在しないことが分かりました。
この結果からBBCは、「AIによるアシスタントは現段階で正確なニュース提供ができず、視聴者を誤解させるリスクがある」と結論づけています。
出典 : Over half of LLM-written news summaries have “significant issues”—BBC analysis https://arstechnica.com/ai/2025/02/bbc-finds-significant-inaccuracies-in-over-30-of-ai-produced-news-summaries/