生成AIと虚偽の現在地と課題全体像
生成AI(AI=人工知能)は、文章や画像を自動で生み出す技術であり、業務の効率化や新規事業の土台として広く注目されています。一方で、確率的な予測に基づき次の語を並べる仕組み上、もっともらしい虚偽を作り出す性質を避けにくいのが現実です。企業が業務へ組み込む際の最大の障害が、この虚偽の管理と言えます。経営層やDX(デジタル変革)推進担当の方にとって、まず押さえるべき前提は、生成AIは真偽を保証しないこと。そして、適切な検証と運用設計がなければ意思決定リスクが高まることです。
最新の外部調査では、主要な生成AIの虚偽回答率の平均が約35%に達し、前年から倍増しました。個別には、ChatGPTが40%、Inflection AIのPiが56.67%、Perplexityが46.67%と報告され、Claudeは10%、Geminiは16.67%と比較的低い水準でした。さらに、ロシアの組織が人工的に大量の偽の内容を作り、検索に連動する回答源を汚染する動きも確認されています。つまり、入力が適切でも参照する外部情報が汚れていれば、出力の虚偽リスクが増幅される構図です(参考*1)。
どれほど精緻な大規模言語モデルでも、虚偽の可能性をゼロにはできません。だからこそ、モデル評価、データ品質、指示文(プロンプト)設計、検証基準、統治・管理体制(ガバナンス)までを一体で設計する発想が要ります。本稿では全体像から入り、虚偽の技術的な仕組み、学習データの品質、指示文設計、規制と企業リスク、検知運用、最新事例までを順に解説します。業務適用に向け、段階的にリスクを抑える道筋を描きます。
虚偽が生まれる技術的メカニズム
生成AIの中心である大規模言語モデルは、膨大な文字列を学習し、次に出る語の確率を推定して文章を生み出します。仕組みは、連想の強さを手がかりに最も尤もらしい続きを合成するもの。真偽を直接判定しているわけではないため、関連度の高い誤情報が混ざると虚偽が自然に紛れ込みます。埋め込み表現や潜在空間での近さが、正確さではなく一貫性を優先させる場合があるのです(参考*2)。
虚偽には種類があります。事実関係の誤り。文脈を取り違える誤り。構造的な取り違え。創造的に欠落部分を補ってしまう誤り、などです。発生要因は、学習データの誤りや偏り、文脈推定の外れ、情報の古さ、推測の混入、計算手順(アルゴリズム)の限界など。米国では弁護士が存在しない判例を引用してしまう事件が相次ぎ、提供企業のモデル運用や人手による安全調整の重要性が議論されてきました。対策としては、計算手順の改善、品質の高い追加データ、指針の整備、事実根拠への接地、人のフィードバックによる強化学習、類似検索を使った回答の裏取りが挙げられます(参考*3)。
さらに注意すべきは、同じ質問でも出力が変わりやすい点です。推論の過程で小さな誤差が増幅し、虚偽が濃くなることがあります。指示文が曖昧で条件が緩いほど、モデルは補完的な創作を増やし、事実から離れやすくなります。逆に、必要な制約を明確に伝え、引用や根拠提示を指示するほど、虚偽は相対的に減少します。技術特性を踏まえ、設計と運用で虚偽を抑える姿勢が要点です。
学習データ品質と虚偽の関係性
虚偽の多くは、学習データの偏りや品質不良に根を持ちます。たとえば、MetaのGalactica(約1200億パラメータ、約4600万文献を学習)が公開直後に誤情報や偏見の拡散懸念から停止に至った事例や、GoogleのBardが天文学の誤情報を示して批判を受けた事例が知られています。現場では、指示文の不適切さ、データの偏り、過学習が組み合わさると、もっともらしい虚偽が出やすいと整理されます。設計段階から、データの鮮度、網羅性、出所の信頼性を点検することが肝心です(参考*4)。
また、学習データに存在しない領域へ踏み込むと、モデルは確率的補完を行いがちです。これが外在的な虚偽、すなわち存在しない情報の創作につながります。逆に、データに存在はするが誤っている場合は内在的な虚偽となり、誤りを強めて再生産してしまいます。業務利用では、自社の規程、製品仕様、法令解釈など、社外の一般知識では誤差が大きい領域が多いもの。社内の正本データを優先する仕組みを整えることが欠かせません。
対策の柱は、データ品質の監査です。出所の記録、版管理、改訂履歴の保持、重複や迷惑情報の除去、差別や偏見表現のフィルタリング、更新サイクルの明確化を進めます。さらに、外部サイト由来の情報に依存する場合は、信頼性評価の基準を設け、低品質サイトの混入を防ぎます。学習時だけでなく、推論時に参照する情報源の管理まで含めて品質保証を設計してください。
プロンプト設計と虚偽低減の実践
現場で直ちに実践できるのが、指示文(プロンプト)設計の見直しです。指示は具体的に。役割、目的、制約、出力形式、検証手順の順で構成し、曖昧な指示語を避けます。特に、出典の提示、引用の有無、根拠の優先順位、回答不能時の対応を明記すると、虚偽の抑制に効果があります。たとえば、根拠なしには断定しない、確証がなければ保留や不足データの提示を促すなど、意思決定に直結する表現を管理します。
もう一つの実践策が、検索拡張生成です。これは、質問に合わせて社内外の信頼できる資料を検索し、要点を抽出したうえで回答させる方式。事実への接地を強めるため、回答には必ず参照URL(参照先のアドレス)や文書ID(識別子)を付し、参照不可なら回答を控える規定を設けます。加えて、回答前に要約した根拠を列挙し、矛盾がないか機械的に照合すると虚偽が減ります。
機密情報と虚偽の両面に備えるには、入力と出力の管理が必要です。入力面では、個人情報や営業秘密を扱う範囲の定義、持ち出し禁止ルール、権限に応じたアクセス制御を整えます。出力面では、生成物の保存場所、再利用・二次利用の可否、公開範囲、保存期間、監査記録の保全を明確化します。社内の指針や教育、そして段階的な試行運用を通じて、誤情報や倫理・法令違反を未然に抑える体制づくりがポイントです(参考*5)。
明日から使える確認表(抜粋):
– 目的・対象読者・禁止事項・回答不能条件を指示文に明記
– 根拠URL/文書IDの必須化、引用部の範囲指定(例:3文以内)
– 回答前の根拠要約→矛盾検出→最終生成の順に実行
– 参照不可・根拠不足時は「回答保留」の定型文を返す
企業リスクと規制対応の虚偽対策
企業が直面するのは、名誉毀損、誤情報拡散、著作権侵害、消費者保護、個人情報保護といった重層的なリスクです。海外では、政府が安全性試験の共有、第三者による疑似攻撃試験、透かし付与の指針などを求める動きが強まっています。規制の速度は速く、製品設計の初期から安全設計と透明性を組み込む姿勢が求められます。方針の明確化、教育、設計への組み込みをセットで進めると、虚偽や偽情報への対抗力が高まります(参考*6)。
著作権では、学習過程や生成物の扱いが争点になります。学習時の利用適法性、生成物の権利帰属、提供会社と利用者の責任分担は、各国の裁判例や立法動向で変化します。虚偽が混ざった生成物を社外公開する場合、信用毀損に加え、他者作品の断片が混在するおそれもあります。契約や社内規程で、利用範囲、検証手順、権利処理の流れを明文化し、監査の証跡を残してください。
国内の順守事項では、個人情報や取引情報の外部送信、保管先、再学習利用の可否、第三国移転の有無などについて、開示義務と社内承認の流れを整理します。さらに、消費者向けの生成物には明確な表示や免責の範囲設定、問い合わせ窓口の整備を行います。誤りが確認された場合の訂正、回収、連絡の手順も定めます。法務、セキュリティ、事業部が連携して対応する体制が要です。
実装の型の例として、製品開発の節目に安全性審査(攻撃的な疑似試験、透かし方針、説明可能性)を追加し、法務の審査項目に生成物の根拠提示、再学習の可否、第三国移転の可否を含めます。また、顧客向け表示ではAI生成の明示、訂正窓口、更新日付の標準化を進めます。
検証基準と虚偽検知の運用ガバナンス
虚偽を減らすには、検証の型を定め、継続運用で守り切ることが欠かせません。まず、モデル評価指標を定義します。正確性、再現率、適合率、網羅性、説明可能性、有害性の低減などを、用途に合わせて重み付けします。次に、一次検証を自動で行い、二次検証を人が担う二段階の仕組みを設定します。回答の信頼度の点数と根拠の数、引用の整合性、日付の新しさを機械で点検し、しきい値を下回る場合は人手審査へ回す運用です。
運用の現実として、検出は誤検出と見逃しの両方が起こり得ます。たとえば、AI生成テキストの判定では、偽陽性を約1%に抑える設計がある一方、偽陰性は約15%程度生じ得るとの報告があります。さらに、言い換えや感情語の挿入、語彙や構文の多様化、検出回避のための外部ツールの利用によって、検出器をすり抜ける手口も知られています。単一の検出器に依存せず、複数の検証手段を組み合わせ、手順を監査可能に保つことが要点です(参考*7)。
統治・管理体制(ガバナンス)の面では、モデル監査、指示文の審査、データ出所の管理、記録の長期保存、再現可能な検証環境が要となります。変更管理の会議体を設け、モデル更新や知識ベース差し替えのたびに、影響範囲、後方互換、品質指標の再測定を行います。KPI(重要業績評価指標)は、虚偽率、訂正件数、訂正までの平均時間、再発率などを定義し、業務の指標と連動させて改善を重ねます。
90日ロードマップ(例):
– 0〜30日: 重要な利用場面の選定、評価指標と閾値の策定、一次自動検証のPoC(概念実証)
– 31〜60日: 検索拡張生成(RAG)と根拠提示の本番適用、二次検証の運用開始、監査記録の整備
– 61〜90日: KPIレビュー、改善サイクルの定着、教育プログラムの継続運用
最新事例で学ぶ虚偽回避のベストプラクティス
海外では、ユタ州控訴裁判所が、生成AIを用いた法廷書面に虚偽の判例引用が含まれていたとして弁護士に制裁を科しました。存在しない「Royer v Nelson」を含む提出書面が問題視され、相手方費用の支払い、依頼人への返還、公益団体への寄付が命じられています。専門職における事実検証の義務と、AI利用指針の整備が改めて示された格好です。法務や医療のような高リスク分野では、必ず人の最終確認を挟む二重化が欠かせません(参考*8)。
英国では、Appleの新機能が配信したニュース通知で、医療経営者の死亡報道を誤って伝えたとして放送局に苦情が寄せられ、短期間で信頼性の課題が顕在化しました。報道機関の素材を基にしても、確率的に生成される過程で虚偽が混じり得る点を示した事例です。速報性の高い領域では、配信前の自動事実確認と人的審査の併用、通知の段階的展開、誤報時の迅速な訂正手順が有効です(参考*9)。
日本国内では、2025年に入り不審メールが急増し、5月の全世界総数7.7億通のうち80%超が日本を標的としたとの報告があります。生成AIの悪用により、海外組織でも自然な日本語の虚偽メールを短時間で量産できるようになったことが背景とみられます。企業は、多要素認証、リンク先検証、送信元の厳格確認、添付やURLへの注意喚起、定期的なパスワード更新、そして教育の徹底を組み合わせ、クリック率を下げる環境を整えます。疑わしいメールの報告経路を明確にし、訓練と模擬攻撃を定期実施することが、虚偽に基づく被害の抑止に直結します(参考*10)。
以上の最新事例が示すのは、虚偽は技術だけでなく運用で抑えるという発想です。実務では、検索拡張生成による根拠の接地、出力の根拠提示、二段階検証、権限設計、訂正と再発防止の仕組みを一体で回します。施策は小さく始め、KPI(重要業績評価指標)で効果を可視化し、現場に合わせて磨き込みましょう。虚偽を許容しない文化と仕組みが整えば、生成AIは安全に価値を生み続けます。
監修者
安達裕哉(あだち ゆうや)
デロイト トーマツ コンサルティングにて品質マネジメント、人事などの分野でコンサルティングに従事しその後、監査法人トーマツの中小企業向けコンサルティング部門の立ち上げに参画。大阪支社長、東京支社長を歴任したのち2013年5月にwebマーケティング、コンテンツ制作を行う「ティネクト株式会社」を設立。ビジネスメディア「Books&Apps」を運営。
2023年7月に生成AIコンサルティング、およびAIメディア運営を行う「ワークワンダース株式会社」を設立。ICJ2号ファンドによる調達を実施(1.3億円)。
著書「頭のいい人が話す前に考えていること」 が、82万部(2025年3月時点)を売り上げる。
(“2023年・2024年上半期に日本で一番売れたビジネス書”(トーハン調べ/日販調べ))
出典
- (*1) Yahoo!ニュース – 偽情報をオウム返し「生成AI汚染」1年で倍増、ロシア工作ネットの影深まる(平和博)
- (*2) Medium – Why ChatGPT lies
- (*3) WEEL – 生成AIのハルシネーションとは?種類や事例、発生の原因と対策方法について解説
- (*4) 横河レンタ・リース株式会社 – 生成AIの「ハルシネーション」とは? AIで誤情報を得るリスク
- (*5) Sambushi – 生成AIのトラブル・炎上事例|誤情報の生成や機密情報の漏えいなどから見えるAIの問題点
- (*6) The Conversation – Algorithms are pushing AI-generated falsehoods at an alarming rate. How do we stop this?
- (*7) Generative AI Detection Tools
- (*8) innovaTopia -(イノベトピア) – ーTech for Human Evolutionー – ChatGPT虚偽判例でユタ州弁護士が制裁処分、AI「ハルシネーション」が法廷で発覚
- (*9) RSF urges Apple to remove its new generative AI feature after it wrongly attributes false information to the BBC, threatening reliable journalism
- (*10) 日本経済新聞 – 不審メール「日本標的」8割 証券口座乗っ取りにも悪用か 生成AIで虚偽文面
Photo:Hartono Creative Studio