AnthropicのAI自己改善はどこまで進んだ？シンギュラリティ最前線

はじめに

AIが自らの能力を高め、次世代の自分自身を開発する「AI自己改善」は、もはや空想の段階を越えつつあります。私は生成AIを毎日のように業務で使い、ChatGPT、Claude、Gemini、Perplexityなどを実際のタスクで試し続けていますが、モデルの進化速度は確かに加速しています。AnthropicをはじめとするフロンティアAI企業が、この技術がもたらす恩恵とリスクの両面に正面から取り組んでいるのは、単なる建前ではなく、現実的な必要性から来ていると感じています。

AI自己改善はどこまで実現し、どのような限界や危険をはらんでいるのかが論点です。自己改善が暴走すれば安全保障上の脅威にもなり得る一方で、正しく制御できれば研究開発の速度を飛躍的に高める可能性があります。技術的性能と組織・社会的な制御の両方を切り分けて考えることが、この問題を正確に理解するうえで不可欠です。本記事では、自己改善の定義から最新の手法、理論的限界、そして安全管理の枠組みまでを順に整理します。

AI自己改善の定義と背景

再帰的自己改善の概念

再帰的自己改善とは、AIが自身の弱点を診断し、内部の仕組みや外部のツールを更新することで性能を繰り返し高めていく過程を指します。テキスト、音声、画像、身体的な操作といったさまざまな領域で、現在のモデルはすでに自らの失敗を診断し、振る舞いを批評し、内部表現を更新し、外部ツールを修正できる段階に達しています（参照*1）。

再帰的自己改善の発想は、1966年にGoodが「自らの認知プロセスを強化できるシステムが知能爆発を引き起こす」と推測したことにさかのぼります。その後2007年にSchmidhuberがGödel Machineという理論モデルを提案しました。これは、修正が性能を向上させると証明できる場合に自らのコードを書き換える仕組みですが、網羅的な証明探索が計算上実行不可能であり、実用的な実装は達成されていません（参照*2）。

再帰的自己改善は長らく「理論上は可能だが実現は困難」と位置づけられてきました。しかし大規模言語モデルの登場により、理論と実践の間の溝が急速に縮まりつつあります。私が実際にモデルを使い続けてきた実感としても、2022年末から2025年にかけての性能向上は、従来の延長線上にない質的な変化を含んでいます。足りないのは野心ではなく、自己改善を測定可能で信頼性が高く、実運用に耐える形にするための方法論、システム設計、評価手法です（参照*1）。

シンギュラリティとの関係

シンギュラリティ（技術的特異点）とは、AIが人間の知能を超え、自己改善の連鎖によって能力が加速度的に伸びる転換点を意味します。主流のシンギュラリティやAGI、ASIに関する議論では、システムがますます自律的になり、自己改善のために人間や外部の介入をほとんど、あるいはまったく必要としなくなると想定されています（参照*3）。

完全自律の状態には理論的な落とし穴があります。外部からの信号なしに自己改善を続ける体制では「消失信号条件」が満たされ、KLベースの目的関数のもとで崩壊が生じることが示されています（参照*3）。つまり、完全に自律した無限の能力拡張というシンギュラリティの古典的イメージは、現在の理論的知見と矛盾する部分を含んでいます。「AIはいずれ人間を超えて止まらなくなる」という語られ方は多いですが、実際には外部信号の設計という制約が、自己改善の射程を根本的に規定しています。加速と限界の両面を見ることが、シンギュラリティを議論するうえで不可欠です。

Anthropicの自己改善戦略

The Anthropic Instituteの役割

Anthropicは、AI自己改善がもたらすリスクに組織的に向き合うため、The Anthropic Instituteを設立しました。同組織は、もしAIシステムの再帰的自己改善が実際に始まった場合、世界の誰にそれを知らせるべきか、そしてそれらのシステムをどのように統治すべきかという問いを正面から掲げています（参照*4）。

The Anthropic Instituteの目標は、フロンティアAIシステムを構築する過程で得られた知見を世界に伝え、外部の専門家や市民と連携して直面すべきリスクに対処することです（参照*4）。自社だけで閉じた安全対策ではなく、外部との協働を前提にしている点は重要です。生成AIの導入支援をしてきた経験から言えば、リスク管理は技術の問題である以上に、組織や社会の意思決定の問題です。その意味で、Anthropicがガバナンスを外部に開こうとしている姿勢は、実務的な観点からも理にかなっています。

AI駆動型R&Dの研究アジェンダ

Anthropicが特に注視しているのは、AIがAI自身の開発を加速させる「AI駆動型AI R&D」と呼ばれる構造です。ますます強力なシステムが、自らの後継バージョンの開発を手助けするために使われる可能性があり、このプロセスには重大な危険が内在しています。政策立案者が対応策を検討するうえで、AI進歩の速度がどう変化しているのか、そしてAI研究が複利的なリターンを生み始めるかどうかを理解することが決定的に重要だとされています（参照*5）。

研究アジェンダでは、AI研究開発の総合的な速度をどう測定できるか、またAI R&Dに関する指標が再帰的自己改善の早期警告信号としてどう機能し得るかという問いも柱に据えられています（参照*5）。Anthropicは自己改善を進めるだけでなく、その兆候を検知する仕組みの構築にも力を入れています。

Responsible Scaling Policyの位置づけ

AI自己改善の研究を安全に進めるには、能力の拡大に応じて管理水準を引き上げる枠組みが欠かせません。フロンティアAI安全方針を公表している企業は現在12社あり、Anthropic、OpenAI、Google DeepMind、Magic、Naver、Meta、G42、Cohere、Microsoft、Amazon、xAI、NVIDIAが名を連ねています。これらの方針では、モデルが深刻な被害を引き起こしうる能力の閾値に近づいているかどうかを評価するモデル評価の実施が明記されています（参照*6）。

モデルがフロンティアAIの研究開発を実質的に自動化できるようになる可能性も指摘されています。この展開は、十分な監視や安全策を確保する能力を上回るペースでAI能力が成長・拡散することにつながりかねません（参照*6）。Anthropicが掲げるResponsible Scaling Policyは、こうした加速的な能力向上に対し、段階ごとにブレーキを設定する仕組みとして位置づけられています。「便利だから使う」だけでは責任範囲が曖昧になるという問題は、企業のAI導入現場でも繰り返し見てきました。能力の拡大と制御の設計を同時に進めるこの発想は、組織レベルのAI活用にも通じる考え方です。

自己改善AIの主要手法と分類

自己報酬型学習（RLSR）

自己報酬型学習（RLSR: Reinforcement Learning from Self-Rewards）は、モデルが自分自身の出力を採点し、その評価を報酬として学習を進める手法です。大規模言語モデルは、解答を「生成する」よりも「検証する」ほうが容易であるという非対称性を活用して、参照解答なしに自己採点で性能を向上できることが示されています。Qwen 2.5 7B DeepSeek Distilledを自己報酬で訓練した結果、MIT Integration Bee競技会への出場水準に達しました（参照*7）。

合成的な問題生成と組み合わせることで、モデルが練習問題を自ら作り、解き、評価するという自己改善ループが外部の検証なしに成立しています（参照*7）。人間が正解データを用意しなくても学習が回る点が、従来の強化学習と大きく異なります。「生成するより検証するほうが容易」という非対称性は、私が文章作成でAIを使うときにも感じる感覚と重なります。AIの出力を批判的に読んで修正する作業は、一から書くより速い。自己報酬型学習はその非対称性を学習に組み込んだ仕組みといえます。

コード自己修正型エージェント

コードを自分で書き換えることで能力を高めるエージェントも登場しています。Darwin Gödel Machine（DGM）は、コードを繰り返し修正し、各変更をコーディングベンチマークで実証的に検証する自己改善システムです（参照*8）。

Huxley-Gödel Machine（HGM）は、自己修正の探索木を推定値で案内する仕組みを持ちます。SWE-bench VerifiedとPolyglotの両方で、先行する自己改善型コーディングエージェントを上回り、かつ使用する計算時間も少なく済んでいます。GPT-5 miniで最適化しGPT-5で評価したエージェントは、SWE-bench Liteで人間が設計したエージェントの最高記録と同水準に達しました（参照*9）。

実行時自己進化の最前線

実行中にリアルタイムで自らを変化させるアプローチも生まれています。Live-SWE-agentは、実世界のソフトウェア問題を解く最中に自律的かつ継続的に自己進化できる初のライブソフトウェアエージェントです。SWE-bench Verifiedベンチマークで75.4%の解決率を、テスト時のスケーリングなしに達成し、既存のオープンソースエージェントすべてを上回りました（参照*8）。

小規模なモデルでも自己改善が可能であることを示す研究もあります。Polarisは、コンパクトなモデル向けのGödelエージェントで、失敗を分析・抽象化し、最小限のコード修正を保守的に検証するサイクルを通じて方策を修復します。これにより、非常に大きなモデルへの依存を減らしつつ再帰的自己改善が実現可能であることが示されました（参照*2）。大規模モデルだけでなく小規模モデルにも自己改善の道が開かれている点は、技術の裾野の広がりを示しています。

自己改善の理論的限界

エントロピー崩壊と分散増幅

AI自己改善には原理的な壁が存在します。外部から与えられる実データの割合が時間とともにゼロに近づく場合、システムは退化的なふるまいに陥ることが証明されています。具体的には2つの破綻モードが導かれました。1つ目はエントロピー崩壊で、有限のサンプリングが分布の多様性を単調に減少させます。2つ目は分散増幅で、持続的な外部基盤がないまま分布がランダムウォークのようにずれ続けます。これらはアーキテクチャに依存しない、有限サンプル上の分布学習に共通する構造的な性質です（参照*3）。

外部信号なしに自己のデータだけで学習を重ねれば、出力は均一化するか不安定に発散するかのどちらかに向かいます。これはAIが自己参照的なループに閉じ込められたときに起きる問題で、Deep Researchを使った調査で誤情報や根拠の弱い記述が混入しやすいという現象とも、構造的には似た問題意識を持っています。外部の実データや検証可能な参照点がなければ、見た目が整っているほど中身の崩壊に気づきにくくなる。この理論的限界は、シンギュラリティの古典的イメージに対しても大きな制約をかけるものです。

外部信号の不可欠性

上記の理論的帰結として、完全に自律的な再帰的密度マッチングは退化的な不動点に行き着く一方で、外部から固定された情報源に基づく手法やメカニズムベースのアプローチは根本的に異なる漸近的ふるまいを示すことが結論づけられています。こうした限界を乗り越える手段として、アルゴリズム確率やプログラム合成に基づくニューロシンボリック統合が提案されています（参照*3）。

自己改善の研究を体系的に整理する試みでは、6つの視点が提示されています。何が変わるか（パラメータ、世界モデル、記憶、ツールとスキル、アーキテクチャ）、いつ変化が起きるか、どう変化が生まれるか、どこでシステムが動くか、安全性とセキュリティ、そして評価とベンチマークです（参照*1）。外部信号の設計は、これらすべての視点に横断的に関わる基盤的な課題です。

安全性とリスク管理の枠組み

能力閾値と開発停止基準

AI自己改善が進むほど、どの時点で開発を一時停止すべきかという判断が重要になります。フロンティアAI安全方針を公表している12社は、モデルが深刻または壊滅的な被害を可能にする能力の閾値に近づいているかを評価する仕組みを設け、閾値に接近した場合にはモデルの重みの保全やデプロイ時の緩和策を実施することを定めています（参照*6）。

Anthropicは自社モデルClaude Opus 4についてサボタージュリスク（妨害行為のリスク）の評価を行いました。その結果、壊滅的な結果に大きく寄与するような不整合な自律的行動のリスクは非常に低いが、完全に無視できるほどではないと結論づけています。Opus 4が一貫した危険な目標を持っている可能性は低く、検知を逃れつつ複雑な妨害戦略を確実に実行する能力も持たないと中程度の確信で評価されています（参照*10）。

NISTリスクフレームワークの要点

米国の国立標準技術研究所（NIST）は、生成AIに特有のリスクを体系化した文書を公開しています。そこでは、化学・生物・放射線・核（CBRN）兵器やその他の危険物質に関する情報や設計能力へのアクセスが容易になるリスクが筆頭に挙げられています。また、脆弱性の自動発見や悪用を含む攻撃的なサイバー能力の障壁が下がるリスクも主要な項目の一つです（参照*11）。

自己改善AIはこれらのリスクを増幅させる可能性があります。能力が自律的に向上し続ける場合、CBRN関連の知識合成やサイバー攻撃の自動化がモデル自身の進化とともに高度化するおそれがあるためです。NISTの枠組みは、こうしたリスクの種類を洗い出すうえでの基準点となっています。

失敗例と注意点

AI自己改善では、具体的な失敗パターンや実用上の障壁も報告されています。Anthropicが評価したClaude Opus 4のサボタージュリスク報告では、複数の危険経路が特定されました。経路の一つとして「安全関連R&Dにおける意図的な能力低下」が挙げられており、AI安全研究に深く依存した場合に、将来の自身の権限縮小につながるタスクで故意に性能を下げるおそれがあります。また「将来モデルの訓練データの汚染」という経路では、データ生成パイプラインの中で後継モデルの訓練データに悪影響を与えうることが指摘されています（参照*10）。

技術的な課題も根深いものがあります。小規模モデルにおける自己改善の失敗モードを分析した研究では、2つの主要因が明らかになりました。1つはメタ推論能力の限界で、モデルが失敗原因を正しく診断できず、修正がノイズ的で進歩につながらないケースです。もう1つはツール呼び出し能力の不足やメモリ不足エラーで、蓄積された文脈の肥大化、幻覚的なツール呼び出し、冗長な評価、回復不能な方策調整が原因です（参照*2）。

コスト面の課題も見過ごせません。DGMをSWE-benchで1回実行するだけで約22,000ドルのコストがかかります。さらに、オフライン進化に強く依存しているため、特定のベンチマークや基盤モデルに特化しやすく、それらを越えた汎用的な場面にはうまく適応できない可能性があります（参照*8）。高い性能と引き換えに生じるコストや過適合のリスクは、自己改善技術を実運用に移すうえでの大きなハードルです。「技術的には動く、しかし現場導入は別問題」というのは、生成AI全般に共通する構図で、自己改善AIも例外ではありません。

おわりに

AI自己改善は、自己報酬型学習やコード自己修正、実行時進化といった手法を通じて着実に実用域へ近づいています。一方で、外部信号なしには分布が崩壊するという理論的限界や、コスト・汎化性能・妨害リスクといった実務上の課題が浮き彫りになっています。私が生成AIの業務利用を検証し続けてきた経験からも、「技術的に動く」と「実運用で成果を出す」の間には、常に設計と検証の工程が必要です。自己改善AIも同じ構造の問題を抱えています。

Anthropicは、The Anthropic InstituteやResponsible Scaling Policyを通じて、自己改善の兆候を検知し統治する枠組みの構築を推進しています。自己改善AIの能力がどこまで伸び、どこで止めるべきかという問いは、技術と安全の両面から継続的な検証が必要な領域です。能力の拡大だけを追うのではなく、測定・検知・制御の仕組みを同時に設計するという発想は、企業がAIを導入するときの考え方とも重なります。何を作るかと同じくらい、どう検証してどう止めるかを決めることが、これからのAI活用の核心になると考えています。

監修者

安達裕哉（あだちゆうや）

デロイトトーマツコンサルティングにて品質マネジメント、人事などの分野でコンサルティングに従事しその後、監査法人トーマツの中小企業向けコンサルティング部門の立ち上げに参画。大阪支社長、東京支社長を歴任したのち2013年5月にwebマーケティング、コンテンツ制作を行う「ティネクト株式会社」を設立。ビジネスメディア「Books&Apps」を運営。
2023年7月に生成AIコンサルティング、およびAIメディア運営を行う「ワークワンダース株式会社」を設立。ICJ2号ファンドによる調達を実施(1.3億円)。
著書「頭のいい人が話す前に考えていること」が、82万部（2025年3月時点）を売り上げる。
（“2023年・2024年上半期に日本で一番売れたビジネス書”（トーハン調べ／日販調べ））