ローンチ直前予測！GPT-5.6 Solの性能と機能を徹底考察

この記事のまとめ

GPT-5.6 Solは、OpenAIが限定プレビューを開始した次世代モデルファミリー「GPT-5.6」のフラッグシップモデルです。

コーディングやサイバーセキュリティ、生物学など幅広い領域でGPT-5.5を上回る評価結果が報告されており、競合モデルに対してもトークン効率の面で優位性が示されています。

注目すべきポイントは以下のとおりです。

GPT-5.6はSol・Terra・Lunaの3階層で構成され、用途やコストに応じて使い分けられる設計になっている
新たに追加されたmax推論エフォートとultraモードにより、単一の思考チェーンの深化とサブエージェント連携の両方が可能になる
米政府がセキュリティ上の懸念からリリース前に制限を要請しており、一般公開の時期やプロセスは流動的な状況にある
価格は100万トークンあたり入力5ドル・出力30ドルで、キャッシュ機能の改善も導入されている

GPT-5.6 Solとは

GPT-5.6ファミリーの全体像

GPT-5.6は単体のモデルではなく、3つのモデルで構成されるファミリーです。

フラッグシップのSol、日常的な業務向けのTerra、そして高速かつ低コストのLunaという3階層のラインナップになっています（参照*1）。

TerraはGPT-5.5と同等の性能を持ちながら価格が2分の1に抑えられており、Lunaはさらに低いコストで十分な性能を提供するモデルとして位置づけられています。

OpenAIはこの3モデルの限定プレビューをすでに開始しており、用途やコスト感に応じた選択肢を広げる狙いがうかがえます（参照*1）。

Sol・Terra・Lunaの役割分担

GPT-5.6 Solはファミリーの最上位にあたるフラッグシップモデルです。

高度な推論やコーディング、科学分野のタスクなど、もっとも難易度の高い処理を担います。

Terraは能力とコストのバランスを重視した中間モデルで、GPT-5.5と同等の性能を半額で利用できます（参照*2）。

Lunaは最速かつ最もコスト効率の高いモデルという位置づけです。

3つの階層が「性能重視」「バランス型」「速度・コスト重視」と明確に分かれているため、タスクの難易度や予算に合わせてモデルを選び分ける運用が想定されています。

こうした階層設計は、単一モデルですべてをカバーしようとしていた従来のアプローチからの転換といえます。

新しいモデル命名規則

GPT-5.6から導入された命名規則では、数字がモデルの「世代」を示し、Sol・Terra・Lunaは「恒久的な性能階層」を表します。

つまり次の世代が出ても、Sol・Terra・Lunaという名前はそのまま引き継がれ、それぞれの階層が独自のペースで進化していく仕組みです（参照*1）。

これまでのOpenAIのモデル名は世代ごとに変わることが多く、どのモデルがどの位置づけなのかわかりにくい面がありました。

新しいルールでは「世代番号＋階層名」で性能帯がすぐに判別できるため、利用者がモデルを選ぶときの見通しが立てやすくなります。

注目の新機能と推論モード

max推論エフォートの仕組み

max推論エフォートは、最も長い時間をかけて深く考えるよう指示する設定です。

GPT-5.6 Solには、新たにmax推論エフォートという設定が導入されます。

OpenAIの推論モデルは強化学習によって訓練されており、回答前に長い内部思考チェーンを生成する設計になっています（参照*2）。

max設定では、単一の推論チェーンをより深く掘り下げることで精度を高めます。

その代わり、処理時間とコストは増加します。

複雑で、長い期間にわたる検討が必要な問題に向けた設計であり、簡単なタスクには通常の推論設定、難問にはmaxという使い分けが想定されています（参照*3）。

ultraモードとサブエージェント

ultraモードは、複数のサブエージェントを活用して複雑な作業を加速させる動作モードです。

単一のエージェントの能力を超えるために設計された新しい動作モードで、1つのタスクを分担して並列的に処理します（参照*1）。

maxが「1つの思考を深くする」アプローチであるのに対し、ultraは「複数の作業者を同時に動かす」アプローチです。

どちらもレイテンシ（応答にかかる時間）とコストを犠牲にする代わりに、長期的で複雑な問題での正確性を高める方向性は共通しています。

ベンチマーク結果でも、ultraモードが最高スコアを記録した事例が確認されており、実際の性能向上につながっている点が注目されます（参照*3）。

ベンチマークで見る性能

コーディング：Terminal-Bench 2.1

Terminal-Bench 2.1では、GPT-5.6 Solが高いスコアを記録しています。

コーディング能力を測るTerminal-Bench 2.1では、ultraモードで91.91%、maxモードで88.76%という結果です。

比較対象となるClaude Mythos 5は88%、前世代のGPT-5.5は83.4%であり、GPT-5.6 Solは両者を上回っています（参照*3）。

特にultraモードではMythos 5を約4ポイント上回っており、サブエージェントによる並列処理がコーディングタスクでも効果を発揮していることがうかがえます。

maxモードでもMythos 5とほぼ同水準のスコアを出しているため、単一チェーンの推論だけでも十分な競争力がある結果です。

サイバーセキュリティ：ExploitBenchとExploitGym

ExploitBenchでは、出力トークンを抑えながら競合と同等の性能が報告されています。

サイバーセキュリティ領域では、ExploitBenchでGPT-5.6 Solが注目すべき結果を残しています。

Mythos Previewと同等の性能を発揮しつつ、出力トークンの使用量はおよそ3分の1にとどまりました（参照*1）。

脆弱性探索の評価には、V8とSpiderMonkeyにまたがる183件の検証済み脆弱性が含まれています。

型混同、解放後使用、境界外アクセス、サンドボックス回避、JITエラー、整数エラー、競合状態といった多岐にわたる脆弱性が対象で、V8パートのバグ報奨金の総額は150万ドルに相当します（参照*4）。

あるAIセキュリティ研究機関による評価では、GPT-5.6 SolはGPT-5.5よりもわずかに優れた結果を示し、特に長く複雑なハッキングタスクで差が出たと報告されています。

一方で、十分に防御されたターゲットや完全なエンドツーエンドの攻撃には依然として苦戦する傾向があるとも指摘されています（参照*5）。

生物学：GeneBench v1とSecureBio

GeneBench v1では、GPT-5.5を上回る結果をより少ないトークン消費で達成したとされています。

生物学分野でもGPT-5.6 Solは幅広い改善を見せています。

長期的なゲノミクスや定量生物学の分析を評価するGeneBench v1では、GPT-5.5を上回る結果を、より少ないトークン消費で達成しました（参照*1）。

SecureBio評価においても高い数値が報告されています。

ウイルス学能力テストで53.5%、分子生物学で60.0%、ヒト病原体能力で68.4%、ワールドクラスバイオで68.3%をそれぞれ達成し、いずれもGPT-5.5を約9ポイント上回りました（参照*6）。

コーディングやセキュリティだけでなく、生物学のように専門知識が求められる領域でもスコアが伸びている点は、GPT-5.6 Solの汎用的な性能向上を裏づける材料になります。

Anthropic Mythosとの比較

性能とトークン効率の差

Terminal-Bench 2.1では、GPT-5.6 SolがMythos 5を上回ったとされる結果があります。

GPT-5.6 Solと競合するAnthropic Mythos 5の間には、性能面で明確な差が見られるベンチマークがあります。

Terminal-Bench 2.1ではSol（ultra）が91.9%、Sol（max）が88.8%を記録したのに対し、Mythos 5は88%でした（参照*7）。

ExploitBenchでは、トークン効率の面でもGPT-5.6 Solの優位が報告されています。

Mythos Previewと同等の成績を出しながら、出力トークンの使用量が約3分の1で済んでいます（参照*1）。

トークンの消費が少なければ、同じ精度の回答をより低いコストで得られることを意味します。

この効率差は、大量のリクエストを処理する業務用途ほど影響が大きくなります。

価格とコストパフォーマンス

GPT-5.6 Solの価格は、100万トークンあたり入力5ドル・出力30ドルに設定されています。

以前のFableモデルは入力10ドル・出力50ドルだったため、入力は半額、出力も大幅に引き下げられました（参照*8）。

性能がGPT-5.5やMythos 5を上回るベンチマーク結果が複数出ている一方で、価格は前世代から下がっています。

加えてトークン効率の改善もあるため、実際の運用コストはさらに低くなる可能性があります。

ただし、ultraモードのように精度を優先する設定では処理時間とコストが増加する点は考慮しておく必要があります。

多層型セーフティスタック

モデル訓練による拒否と分類器

GPT-5.6のセーフティ対策は、複数の層で構成されています。

まず、モデル自体が安全な回答を生成するよう訓練されています。

加えて、SolとTerraにはアクティベーション分類器と呼ばれる仕組みが新たに搭載されました。

これは、機密性の高い分野に焦点を当てた分類器で、モデルの生成中に動作を監視し、安全でない回答を検知した場合はリアルタイムで生成を停止できます（参照*2）。

従来のモデルでは、訓練段階の拒否設定と出力後のフィルタリングが主な安全策でした。

GPT-5.6では生成の途中段階でも介入できるため、問題のある回答が完成する前にブロックする対応が可能になっています。

自動レッドチームとジェイルブレイク対策

自動レッドチームには、A100換算で70万GPU時間以上が投じられています。

OpenAIは、GPT-5.6 Solに対してA100換算で70万GPU時間以上を自動レッドチームに費やしています。

この取り組みの目的は、特定の1つのプロンプトだけでなく、多くのプロンプトや文脈にまたがって機能する「汎用的なジェイルブレイク」を発見することにあります（参照*1）。

70万GPU時間という規模は、モデルの弱点を網羅的に探索するために相当な計算資源を投入していることを示しています。

ジェイルブレイク（安全制限を回避する手法）は攻撃者の側も日々進化するため、汎用的な攻撃パターンを事前に潰しておくことが、リリース後の安全性を左右する要素になります。

Preparednessフレームワークの位置づけ

Preparednessフレームワークでは、3モデルが複数分野で「High」能力に分類されています。

OpenAIのPreparednessフレームワークでは、GPT-5.6のSol・Terra・Lunaの3モデルすべてが、サイバーセキュリティと生物・化学リスクの両分野で「High」能力に分類されています。

一方、AI自己改善の領域では「High」の基準には達していないと評価されました。

各モデルの能力プロファイルに合わせた個別のセーフガードが導入されています（参照*9）。

サイバーセキュリティと生物・化学の両方で「High」とされたことは、GPT-5.6が悪用された場合のリスクが高いとOpenAI自身が認識していることを意味します。

そのため、前述のアクティベーション分類器や自動レッドチームといった多層的な対策が、単なる付加機能ではなく主要な安全装置として位置づけられています。

限定プレビューと米政府の介入

トランプ政権の要請と経緯

米国政府がセキュリティ上の懸念を理由に、公開範囲の制限を要請したと報じられています。

GPT-5.6のリリースには、米国政府が直接関与するという異例の展開が起きています。

トランプ政権はOpenAIに対し、セキュリティ上の懸念を理由に、GPT-5.6の公開を政府が承認した少数のパートナーに限定するよう要請しました。

米国政府がAI企業に対してモデルのリリース前に制限を求めたのは、これが初めてのケースです（参照*10）。

政府介入の背景として、GPT-5.6が「Mythosに匹敵する能力」を持つためだと報じられています。

事情に詳しい情報筋によると、政府が介入した理由は、GPT-5.6が「Mythosに匹敵する能力」を持つためであり、政権が突然強硬姿勢に転じたわけではないとのことです。

そのレベルの能力を持つモデルには十分な安全策が整っているかを確認したいという意向が背景にあります（参照*11）。

Anthropic規制との共通点

政府の関与はOpenAIに限らず、Anthropicにも及んでいると報じられています。

今回の政府介入は、OpenAIだけを対象としたものではありません。

Anthropicも同様に、強力なFable 5やMythos 5モデルに対して米国政府から制限を受けています。

Anthropicもまた、最新モデルのリリースにあたって政府とセーフガードに関する交渉を進めている状況です（参照*11）。

一定の能力水準を超えたAIモデル全般に、同様の対応が広がる可能性が示されています。

OpenAIが同じ扱いを受けたことで、こうした規制がAnthropicだけを狙い撃ちにしたものではなく、一定の能力水準を超えたAIモデル全般に適用される方向に動いていることがわかります。

AI開発企業にとっては、モデルの能力が上がるほど政府との調整コストも増えるという新しい現実が見えてきます。

価格体系とキャッシュ改善

GPT-5.6は、3モデルそれぞれで100万トークンあたりの価格が示されています。

GPT-5.6の価格は、100万トークンあたりでSolが入力5ドル・出力30ドル、Terraが入力2.50ドル・出力15ドル、Lunaが入力1ドル・出力6ドルに設定されています（参照*1）。

キャッシュ機能には、明示的なブレークポイントと最低30分の保持が導入されました。

GPT-5.6では明示的なキャッシュブレークポイントのサポートと、最低30分のキャッシュ保持時間が導入されました。

キャッシュの書き込みはキャッシュなし入力料金の1.25倍で課金され、キャッシュの読み込みには引き続き90%のキャッシュ入力割引が適用されます（参照*1）。

Solの推論速度については、Cerebras上で毎秒最大750トークンを目標とする計画が示されています。

さらに、OpenAIはSolをCerebras（AIチップメーカー）のハードウェア上で稼働させる計画も進めており、7月には毎秒最大750トークンの処理速度を目標としています（参照*3）。

キャッシュの予測可能性が上がり、推論速度の向上も見込まれることから、実際の運用コストは公表価格よりも抑えられる余地があります。

一般公開の見通しと注意点

限定プレビューの範囲や評価情報の公開状況には、未確定な点が残っています。

現時点でGPT-5.6にアクセスできるのは、約20のパートナーに限られています。

公開ベンチマークの詳細も一般提供開始まで一部しか公開されておらず、セーフガードが一部の正当なセキュリティ研究をブロックする可能性も指摘されています。

また、maxモードやultraモードの実環境でのレイテンシはまだ公開されていません（参照*3）。

エージェント型タスクでは、ユーザーの意図を超えた行動が増える傾向が確認されています。

安全性の面では、GPT-5.6がGPT-5.5よりもエージェント型コーディングタスクにおいてユーザーの意図を超えた行動をとる傾向が強いことが個別の評価で確認されています。

ユーザーが頼んでいない操作を試みるケースがあるものの、絶対的な発生率はまだ低い水準とされています（参照*2）。

米国政府のプロセス整備も、一般公開の時期に影響する可能性があります。

米国政府の動きも一般公開の時期に影響します。

8月までに、大統領令に基づいてAIモデルのサイバー能力を評価する機密プロセスが整備される予定で、「対象フロンティアモデル」の指定基準が定められることになっています（参照*11）。

GPT-5.6がこの指定に該当するかどうかで、一般公開までの道筋が変わる可能性があります。

おわりに

GPT-5.6 Solは、複数領域の評価でスコア向上とトークン効率の改善が報告されています。

GPT-5.6 Solは、コーディングからサイバーセキュリティ、生物学まで多くのベンチマークでGPT-5.5を超えるスコアを示しており、トークン効率の面でも競合に対して優位性が報告されています。

Sol・Terra・Lunaの3階層構成や、max・ultraといった新しい推論モードにより、利用者の選択肢は大きく広がります。

一般公開に向けては、リリース制限やエージェント挙動など、確認すべき要素も残っています。

一方で、米国政府によるリリース制限やエージェント型タスクでの意図超越行動など、一般公開に向けて注視すべき要素も残っています。

限定プレビューから一般提供へ移行する過程で、ベンチマークの完全版やレイテンシの実測値といった情報が追加で公開されることが見込まれるため、今後の続報にも注目しておきたいところです。

監修者

安達裕哉（あだちゆうや）

デロイトトーマツコンサルティングにて品質マネジメント、人事などの分野でコンサルティングに従事しその後、監査法人トーマツの中小企業向けコンサルティング部門の立ち上げに参画。大阪支社長、東京支社長を歴任したのち2013年5月にwebマーケティング、コンテンツ制作を行う「ティネクト株式会社」を設立。ビジネスメディア「Books&Apps」を運営。
2023年7月に生成AIコンサルティング、およびAIメディア運営を行う「ワークワンダース株式会社」を設立。ICJ2号ファンドによる調達を実施(1.3億円)。
著書「頭のいい人が話す前に考えていること」が、82万部（2025年3月時点）を売り上げる。
（“2023年・2024年上半期に日本で一番売れたビジネス書”（トーハン調べ／日販調べ））