進化が止まらない！Claude Sonnet 5の実力とは

この記事のまとめ

Claude Sonnet 5は、2026年6月30日にリリースされたAnthropicの新モデルで、Sonnetシリーズとしては過去最高のエージェント性能を備えています。
ポイントは次のとおりです。

推論・コーディング・ツール使用といったエージェント性能が大幅に向上し、上位モデルのOpus 4.8に迫る実力をSonnet価格帯で実現している
プロンプトインジェクション攻撃の成功率がSonnet 4.6の約50%から1%未満へ低下するなど、安全性が飛躍的に高まった
新しいトークナイザーの採用で同じ入力テキストのトークン数が約30%増える点や、APIの一部仕様変更など、移行時に注意すべきポイントもある

Claude Sonnet 5の概要

Claudeモデルファミリーにおける位置づけ

Claude Sonnet 5は、Anthropicが2026年6月30日にリリースした新世代Sonnetシリーズの最初のモデルです。
計画の立案やブラウザ・ターミナルといったツールの利用、そして自律的な動作を、少し前まではより大きく高価なモデルでなければ実現できなかった水準でこなせるよう設計されています（参照*1）。

Sonnet価格帯で利用しつつ、上位モデルであるOpusクラスの性能に近づいている点が大きな特徴です。
コーディング、エージェント活用、日常的なビジネス用途のいずれにおいても最上位クラスの知性を提供するモデルとして位置づけられています（参照*2）。

Sonnetシリーズが担う「性能とコストのバランス」という立ち位置を、さらに押し進めたモデルといえます。
高い推論力を手ごろな価格で使いたい場面での選択肢として、検討する価値があります。

主要スペックと料金体系

Claude Sonnet 5の基本スペックは、コンテキストウィンドウが100万トークン、最大出力トークンが12万8,000トークンです。
知識のカットオフは2026年1月で、推論機能としてアダプティブシンキングが常時有効になっています（参照*3）。

料金は、前モデルのClaude Sonnet 4.6と同じ入力1MTokあたり3ドル・出力1MTokあたり15ドルに設定されています。
さらに、2026年8月31日までは導入価格として入力2ドル・出力10ドルで利用できます（参照*4）。

100万トークンのコンテキストウィンドウにより、長大なドキュメントやコードベースを一度に扱えます。
料金面でもSonnet 4.6からの据え置きなので、性能が上がった分だけコストパフォーマンスが改善された計算になります。導入価格が適用される期間中に試してみるのもよい選択です。

Sonnet 4.6からの進化点

推論・ツール使用・コーディングの向上

Claude Sonnet 5は、前モデルのSonnet 4.6と比較して推論、ツール使用、コーディング、そしてナレッジワークといったエージェント性能の主要な側面で大幅に改善されています。
その性能はOpus 4.8に近いレベルに到達しており、価格差を考えるとかなり大きな進歩です（参照*1）。

こうした向上は単なるベンチマーク上の数字にとどまりません。
複雑なタスクを複数のツールを組み合わせて解決する力が底上げされたことで、実際の業務に近い場面での使い勝手が変わってきます。特にコーディング支援やツール連携が求められる開発ワークフローでは、Sonnet 4.6からの切り替えによる効果を実感しやすい領域です。

アダプティブシンキングとエフォート制御

Claude Sonnet 5では、推論の深さを自動で調整するアダプティブシンキングが常時有効になっています。
Sonnet 4.6ではthinkingフィールドを指定しないリクエストは推論なしで実行されていましたが、Sonnet 5では同じリクエストでも自動的にアダプティブシンキングが働きます。なお、手動で拡張思考を設定する方式はSonnet 5で廃止されており、使用すると400エラーが返ります（参照*5）。

effortパラメーターを使うと、推論の深さとトークン消費のバランスを調整できます。
Claude Sonnet 5ではデフォルトがhighに設定されており、高難度のコーディングやエージェントタスクにはxhighへ引き上げることが推奨されています（参照*6）。

難易度に応じて、簡単な質問には素早く答え、複雑な課題にはじっくり考えるという使い分けが可能です。
ユーザーは難易度に応じてeffortを切り替えるだけで、速度とコストの最適化ができます。

新トークナイザーによる影響

Claude Sonnet 5では新しいトークナイザーが導入されました。
同じ入力テキストを処理した場合、Sonnet 4.6と比べてトークン数が約30%増加します（参照*4）。

トークナイザーとは、テキストをモデルが処理できる単位に分割する仕組みのことです。
新しいトークナイザーによってモデルの性能は向上しますが、同じ文章でもトークン数が増えるため、トークン量に応じた料金や処理時間に影響が出ます。Sonnet 4.6からの移行を検討する際には、現在のワークロードでどの程度トークン数が変化するかを事前に確認しておくと安心です。

エージェント性能の飛躍

自律的なタスク完遂力

Claude Sonnet 5は、複雑なタスクを最後までやり遂げることや、指示がなくても出力を自らチェックすることが報告されています。
早期アクセスパートナーからのフィードバックとして、これらを手ごろな価格で実現していることも挙げられています（参照*1）。

複数の段階にわたる計画を保持し、完了した作業と残りの作業を追跡しながら、少ない修正回数で問題を解決できるようになっています。
この結果、大規模に運用した際の動作がより予測しやすくなっています（参照*2）。

エージェントとして使う場合に「途中で止まる」問題を減らしながら、タスクを完了させやすくなっています。
自分の作業を振り返って修正する力が備わったことで、人の介入を減らしながらタスクを完了させやすくなっています。

Opus 4.8との性能比較

Claude Sonnet 5はOpus 4.8と同じ性能水準には達していませんが、前世代のSonnetモデルと比べると差は大幅に縮まっています。
独自テストでは、Sonnet 5はSonnet 4.6より少ない反復回数で同等の結果を達成でき、1回あたりのトークン数は増えるものの、タスク完了までの総トークン数はむしろ減る傾向が確認されています（参照*7）。

やり取りの回数が減るため、トータルで見ると効率が良くなっているわけです。
Opus 4.8が求められるのは回答品質や推論の深さに妥協できない場面であり、多くの業務ではSonnet 5のコストパフォーマンスが有利に働きます。用途ごとにどちらを選ぶかを見極めることが、運用コストの最適化につながります。

ベンチマークと実導入事例

主要ベンチマークの結果

Claude Sonnet 5は複数の主要ベンチマークでSonnet 4.6を上回るスコアを記録しています。
SWE-bench Proでは63.2%（Sonnet 4.6は58.1%）、Terminal-Bench 2.1では80.4%（同67.0%）、OSWorld-Verifiedでは81.2%（同78.5%）です。Humanity’s Last ExamやGDPval-AA v2でも改善が見られ、Opus 4.8はいくつかの指標で依然リードしているものの、その差は目に見えて縮まっています（参照*7）。

コード編集ツールのベンチマークでも、Sonnet 5は57%、Sonnet 4.6は49%というスコアが報告されています。
あいまいで複数ファイルにまたがる実際のセッションから作成されたタスクでの結果です（参照*8）。

実務に近い条件で測定されたベンチマークほど改善幅が大きい傾向があります。
Terminal-Bench 2.1での13ポイント以上の向上は、ターミナル操作を伴うエージェント的なタスクへの適性が大きく高まったことを示しています。日々の開発作業への恩恵として期待できます。

パートナー企業の評価

パートナーからは、従来モデルでは途中で止まっていたタスクを最初から最後まで完了した事例が公開されています。
Salesforceのアカウントティア更新とエンタープライズ向けローンチ通知の送信という2段階のタスクをClaude Sonnet 5に任せたところ、一連の作業を最初から最後まで完了しました（参照*1）。

法律分野でも、性能とコストの最適な均衡を示す位置にあると評価されています。
原告側の法律業務において、特にリーガルリサーチと分析の領域で改善が顕著だったことから、移行の判断は容易だったとされています（参照*1）。

異なる領域で導入効果が確認されている点は、Claude Sonnet 5の汎用性を裏づけています。
自社の業務に近いユースケースがあれば、移行による効果を見積もる際の参考になります。

安全性とセキュリティ対策

プロンプトインジェクション耐性の強化

Claude Sonnet 5で目を引く進化のひとつが、プロンプトインジェクションへの耐性です。
プロンプトインジェクションとは、悪意ある指示をモデルに注入して意図しない動作をさせる攻撃手法のことです。ブラウザ使用時におけるこの攻撃の成功率は、Sonnet 4.6ではおよそ50%でしたが、Sonnet 5では1%未満に低下し、セーフガードを有効にした状態では実質0%です（参照*9）。

Claude Code上での悪意あるリクエストに対する拒否率も改善されています。
Sonnet 5は92.4%のリクエストを拒否しており、Sonnet 4.6の76.6%から向上しました（参照*9）。

AIエージェントを本番環境で運用する際、プロンプトインジェクション耐性は重要な指標です。
50%から1%未満への改善は、ブラウザ操作を伴う自動化タスクの実用性に影響する水準といえます。

サイバーセキュリティ・セーフガード

Anthropicは、Claude Sonnet 5をサイバーセキュリティの専門モデルとして意図的に訓練してはいないと説明しています。
一般的で無害なサイバー作業はこなせますが、ソフトウェアの脆弱性を悪用するような危険なスキルの評価では、Opus 4.8やMythos 5よりも大幅に低い性能を示します（参照*1）。

Sonnet 5はSonnet 4.6よりもモデル全体の能力が向上しているため、リアルタイムのサイバーセーフガードがデフォルトで有効化された状態で提供されています（参照*10）。

危険なスキルの性能が低いことは、安全面では好ましい特性です。
それに加えてリアルタイムのセーフガードが標準搭載されている点は、企業がエージェントを導入する際の安心材料になります。

導入時の注意点と選び方

移行時のAPI変更と対処法

Sonnet 4.6からClaude Sonnet 5へ移行する際には、いくつかのAPI仕様変更に対応する必要があります。
まず、アダプティブシンキングがデフォルトで有効になるため、Sonnet 4.6でthinkingフィールドなしで送っていたリクエストもSonnet 5では自動的に推論付きで処理されます。推論を無効にしたい場合は、明示的にthinkingをdisabledに設定します（参照*4）。

もうひとつの大きな変更点として、temperature、top_p、top_kといったサンプリングパラメーターをデフォルト以外の値で指定すると400エラーが返されます（参照*4）。

移行前に、該当箇所を確認して不要な指定を削除しておく必要があります。
テスト環境で動作確認してから本番へ切り替えると、予期しないエラーを防げます。

Opus 4.8と使い分ける判断基準

Claude Sonnet 5は多くのSonnet 4.6ワークロードの後継として有力な選択肢ですが、2026年9月1日以降は導入価格の終了に伴い、新トークナイザーの影響もあってコストが約30%上昇する点を考慮する必要があります。
一方、回答品質や推論の深さ、自律性、サイバーセキュリティのガードレール要件が高い業務では、Opus 4.8のほうが適しています（参照*7）。

強い推論力・コーディング能力・エージェントとしての信頼性を大規模に求める場面ではClaude Sonnet 5が適しており、最高水準の推論力がコストに見合う業務ではOpusが候補になります（参照*2）。

タスクの難易度とミスの許容度がモデル選択の軸になります。
まずはClaude Sonnet 5で試し、品質が不十分な場合にOpus 4.8を検討するという段階的なアプローチが、コストを抑えながら適切なモデルを見つける近道です。

おわりに

Claude Sonnet 5は、エージェント性能・安全性・コストパフォーマンスのいずれにおいてもSonnet 4.6から大きく進化したモデルです。
上位モデルのOpus 4.8に近い実力をSonnet価格帯で利用できるため、業務自動化や開発支援の選択肢が広がります。

移行時の確認事項はあるものの、導入価格が適用されている期間はコスト面でも試しやすい環境が整っています。
新トークナイザーやAPI仕様の変更といった点を確認しながら、自社のワークロードに合わせて、まずは小さなタスクから導入効果を確かめてみてください。

監修者

安達裕哉（あだちゆうや）

デロイトトーマツコンサルティングにて品質マネジメント、人事などの分野でコンサルティングに従事しその後、監査法人トーマツの中小企業向けコンサルティング部門の立ち上げに参画。大阪支社長、東京支社長を歴任したのち2013年5月にwebマーケティング、コンテンツ制作を行う「ティネクト株式会社」を設立。ビジネスメディア「Books&Apps」を運営。
2023年7月に生成AIコンサルティング、およびAIメディア運営を行う「ワークワンダース株式会社」を設立。ICJ2号ファンドによる調達を実施(1.3億円)。
著書「頭のいい人が話す前に考えていること」が、82万部（2025年3月時点）を売り上げる。
（“2023年・2024年上半期に日本で一番売れたビジネス書”（トーハン調べ／日販調べ））