Claude Opus 4.7とは？エージェンティック開発を変える5つの新機能と性能データ

Claude Opus 4.7とは何か

Claude Opus 4.7は、Anthropicが2026年4月16日に一般公開した最新のフラッグシップモデルで、エージェンティックAI開発における基盤モデルとして設計されています。

前世代のOpus 4.6でも高い評価を得ていたコーディング・エージェント性能を、Opus 4.7はさらに大幅に強化しました。最大の特徴は「人間が監督しなくても、複雑なタスクを最後まで完遂する自律性」です。CursorのCEO Michael Truell氏は「CursorBenchでOpus 4.7は70%を記録した。Opus 4.6の58%からの意味のある飛躍だ」と評価しています（Anthropic, 2026）。価格はOpus 4.6と同じ入力$5／出力$25（100万トークンあたり）に据え置かれ、API・Amazon Bedrock・Google Cloud Vertex AI・Microsoft Foundryで利用可能です。

ポイント

Claude Opus 4.7の最大の進化は「自律的なタスク完遂能力」です。指示の厳密な実行、エラーからの自己回復、出力の自己検証という3つの能力が強化され、CursorBench 70%・Rakuten-SWE-Bench 3倍・Notion Agent ツールエラー1/3という結果に表れています。API価格はOpus 4.6と同一で、性能対コストが大幅に改善されました。

70%

CursorBenchスコア（Opus 4.6は58%）

Anthropic, 2026

3倍

楽天SWE-Benchでの本番タスク解決数（vs Opus 4.6）

Anthropic, 2026

98.5%

XBOW視覚精度ベンチマーク（Opus 4.6は54.5%）

Anthropic, 2026

主要ベンチマークで見る性能飛躍

Claude Opus 4.7は、コーディング・エージェント・マルチモーダルの3領域で前世代を大幅に上回る結果を記録しています。20社以上のアーリーアクセステスターが独自評価を公開しており、以下に主要な結果を整理します。

コーディング性能

CursorBench（Cursor社の実務ベンチマーク）で70%を達成し、Opus 4.6の58%から12ポイント向上しました。Cursor CEO Michael Truell氏は「自律性と創造的推論で意味のある飛躍」と評しています（Anthropic, 2026）。

楽天のRakuten-SWE-Benchでは、本番環境のタスク解決数がOpus 4.6の3倍に増加。コード品質・テスト品質ともに二桁の改善を記録しました。楽天AI統括マネージャーの加治裕介氏は「エンジニアリングチームが日々出荷する業務にとって、明確なアップグレードだ」と述べています（Anthropic, 2026）。

CodeRabbitのコードレビュー評価では、リコール（検出率）が10%以上向上し、最も検出が困難なバグを複雑なPRで発見できるようになりました。精度は維持したまま、カバレッジが拡大しています（Anthropic, 2026）。

エージェント自律性

Notion AgentのベンチマークではOpus 4.6比で14%以上の改善を達成し、ツールエラーは1/3に減少。「暗黙の要求テスト」を初めてパスし、ツール障害時も実行を継続できるようになった初のモデルです。Notion AI Lead Sarah Sachs氏は「信頼性の飛躍によって、Notion Agentが本当のチームメイトのように感じられる」と評価しています（Anthropic, 2026）。

Ramp社のエージェントチームワークフローでは、ロール忠実度・指示追従・コーディネーション・複雑な推論の全指標で改善。「Opus 4.6と比べてステップバイステップのガイダンスがはるかに少なくて済む」とソフトウェアエンジニアAustin Ray氏が報告しています（Anthropic, 2026）。

マルチモーダル・文書推論

XBOW（自動ペネトレーションテスト）の視覚精度ベンチマークで98.5%を記録。Opus 4.6の54.5%から44ポイントの跳躍です。CEO Oege de Moor氏は「最大の痛点が事実上消滅した」と述べています（Anthropic, 2026）。

画像入力は長辺2,576px（約3.75メガピクセル）に対応し、従来モデルの3倍以上の解像度でビジュアルを処理します。コンピューターユーズエージェントの画面読み取り、複雑なダイアグラムからのデータ抽出、ピクセル単位の精密な参照作業に有効です（Anthropic, 2026）。

Databricks OfficeQA Proの評価では、ソース情報を扱う際のエラーがOpus 4.6比で21%減少。エンタープライズ文書分析で最高性能のClaudeモデルという評価を獲得しています（Anthropic, 2026）。

ベンチマーク	Claude Opus 4.7	Claude Opus 4.6	改善幅
CursorBench（コーディング）	70%	58%	+12pt
Rakuten-SWE-Bench（本番タスク）	3倍	基準	3x
XBOW 視覚精度	98.5%	54.5%	+44pt
Notion Agent ツールエラー	1/3	基準	−67%
Databricks 文書推論エラー	−21%	基準	−21%
Harvey BigLaw Bench	90.9%	—	SOTAクラス
CodeRabbit リコール	+10%超	基準	精度維持で拡大
Factory Droids タスク成功率	+10〜15%	基準	検証ステップ完遂

エージェンティック開発を変える5つの新機能

Opus 4.7と同時に発表された新機能群は、エージェンティック開発のワークフローを根本から変えるものです。ここではDX担当・開発チームが特に注目すべき5つを解説します。

1. xhighエフォートレベル

既存のlow・medium・high・maxに加え、新たにxhigh（extra high）が追加されました。highとmaxの間に位置し、推論深度とレイテンシのトレードオフをより精密に制御できます（Anthropic, 2026）。

Claude Codeではデフォルトのエフォートレベルが全プランでxhighに引き上げられました。Anthropicはコーディングおよびエージェンティックユースケースのテスト時にhighまたはxhighからの開始を推奨しています。

2. /ultrareview スラッシュコマンド

Claude Codeの新コマンド/ultrareviewは、変更差分を通読し、注意深いレビュアーが指摘するであろうバグや設計上の問題を検出する専用レビューセッションを起動します（Anthropic, 2026）。ProおよびMaxプランのClaude Codeユーザーには、試用として3回の無料ultrareviewが付与されています。

3. auto mode（Maxユーザー向け）

Claude Codeの新しい権限オプション「auto mode」がMaxユーザーに拡張されました。Claudeがユーザーに代わって判断を下すモードで、長時間タスクを人間の介入なしで実行できます。通常の権限スキップよりリスクを抑えた設計です（Anthropic, 2026）。

4. task budgets（APIパブリックベータ）

開発者がClaudeのトークン消費をガイドする仕組みで、長時間実行にわたって作業の優先順位付けを可能にします。たとえば「このタスクは最大50,000トークンまで」といった制約を設定でき、エージェントの暴走を防ぎつつ効率的なリソース配分を実現します（Anthropic, 2026）。

5. Cyber Safeguards

Opus 4.7には、禁止または高リスクのサイバーセキュリティ用途を自動検知・ブロックするセーフガードが組み込まれています。Anthropicは先週のProject Glasswing（Mythos Preview）発表で、高度なサイバー能力モデルの段階的リリースを宣言しており、Opus 4.7はその最初のモデルです（Anthropic, 2026）。

正規のセキュリティ専門家（脆弱性調査・ペネトレーションテスト・レッドチーミング）向けには、新設の「Cyber Verification Program」への参加が案内されています。

注意

Opus 4.6からの移行時の注意点: Opus 4.7は更新されたトークナイザーを使用しており、同じ入力が約1.0〜1.35倍のトークンにマッピングされる場合があります。また、高エフォートレベルでは推論量が増えるため出力トークンも増加します。Anthropicのコーディング評価では全エフォートレベルでトークン効率は改善していますが、本番トラフィックでの差分測定を推奨しています。

Opus 4.7が示す「モデルの使い方」の転換

Opus 4.7の進化は、単なるベンチマーク向上にとどまりません。エージェンティックAIの実務的な使い方そのものを変える兆候が見られます。

「指示の厳密実行」への転換

Anthropicの内部テストで明らかになった最大の変化は、指示の文字通りの実行です。以前のモデルは指示を緩く解釈したり、一部をスキップする傾向がありましたが、Opus 4.7は指示をそのまま実行します。その結果、従来のプロンプトが予期しない結果を生むケースがあり、プロンプトの再調整が推奨されています（Anthropic, 2026）。

自己検証行動の出現

Vercel Distinguished Software Engineer Joe Haddad氏は「Opus 4.7はシステムコード上でプルーフ（証明）を実行してから作業を開始する。以前のClaudeモデルでは見られなかった新しい行動だ」と報告しています（Anthropic, 2026）。

Qodo CEO Itamar Friedman氏も「レースコンディションを含む、以前のベストモデルが見逃していた問題を発見・修正した」と述べており、自己検証がエージェント型ワークフローの信頼性を底上げしています（Anthropic, 2026）。

メモリの活用改善

ファイルシステムベースのメモリ利用が改善され、長期間のマルチセッション作業において重要なメモを記憶し、次のタスクに引き継ぐ際の事前コンテキストが少なくて済むようになりました（Anthropic, 2026）。

主要プラットフォームの評価一覧

Opus 4.7のアーリーアクセスには20社以上のパートナー企業が参加しています。以下に、エージェンティックAI開発において特に参考になる評価を抜粋します。

企業	評価ポイント	定量データ
Cursor	自律性と創造的推論が飛躍	CursorBench 70%（vs 58%）
Rakuten（楽天）	本番タスク解決数が3倍、コード品質二桁改善	Rakuten-SWE-Bench 3x
Notion	暗黙要求テスト初クリア、ツールエラー1/3	+14% 改善
Harvey	BigLaw Bench 90.9%、法務推論の精度向上	90.9% high effort
Devin	数時間にわたる自律作業を安定継続	長期自律性向上
Replit	同品質をより低コストで達成（より効率的）	コスト改善
XBOW	視覚精度44pt向上、最大の課題が解消	98.5%（vs 54.5%）
Vercel	リグレッションなし、自己証明行動を確認	ワンショット改善
Bolt	長時間アプリ構築で最大10%改善	リグレッションなし
Warp	Terminal Bench未踏タスクをクリア	並行バグ解決
Databricks	文書推論エラー21%減	OfficeQA Pro SOTA
Ramp	ロール忠実度・コーディネーション全指標改善	ガイダンス不要に

料金体系と移行ガイド

据え置き価格

Opus 4.7の料金はOpus 4.6と同一です。

入力: $5 / 100万トークン
出力: $25 / 100万トークン
利用可能チャネル: Claude API（claude-opus-4-7）、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry

移行時のチェックポイント

Opus 4.6からのアップグレードは直接的な置き換えとして設計されていますが、2つの変更がトークン使用量に影響します。

更新されたトークナイザー: テキスト処理方式の改善により、同じ入力が約1.0〜1.35倍のトークンにマッピングされる場合があります（コンテンツ種類に依存）
高エフォートレベルでの推論増加: エージェンティック設定の後半ターンで推論量が増える傾向があり、信頼性は向上しますが出力トークンも増加します

トークン使用量の制御には、エフォートパラメータの調整、task budgetsの設定、簡潔さを指示するプロンプトの追加が有効です。Anthropicの内部コーディング評価では全エフォートレベルでトークン効率が改善しており、移行ガイドが公式ドキュメントで提供されています（Anthropic, 2026）。

ステップ1: 評価環境の構築

ステップ2: プロンプトの再調整

ステップ3: エフォートレベルの選定

ステップ4: task budgetsの導入

ステップ5: 本番切り替えと監視

まとめ：Opus 4.7はエージェンティック開発の「信頼閾値」を超えた

Claude Opus 4.7の最大の意義は、エージェンティック開発における「人間が監督しなくてもいい」閾値を引き上げたことにあります。

指示の厳密実行、ツールエラーからの自己回復、出力の自己検証——これらの能力が組み合わさることで、開発者は「1対1でエージェントと作業する」フェーズから「エージェントを並列管理する」フェーズへ移行できます。Factory CEO Jeff Wang氏が「エンジニアが1対1のエージェント作業から並列管理へシフトする中で、これはまさにワークフローを解放するフロンティア能力だ」と述べている通りです（Anthropic, 2026）。

2026年末までに企業アプリの40%がAIエージェントを搭載する見通しの中（Gartner, 2025）、Opus 4.7はそのエージェント群を支えるベースモデルとして有力な選択肢です。API価格据え置きという点も、移行のハードルを下げています。まずは既存のプロンプトをOpus 4.7で評価し、性能差を自社ワークロードで確認することが最初の一歩です。

Claude Opus 4.7とは何か

主要ベンチマークで見る性能飛躍

コーディング性能

エージェント自律性

マルチモーダル・文書推論

エージェンティック開発を変える5つの新機能

1. xhighエフォートレベル

2. /ultrareview スラッシュコマンド

3. auto mode（Maxユーザー向け）

4. task budgets（APIパブリックベータ）

5. Cyber Safeguards

Opus 4.7が示す「モデルの使い方」の転換

「指示の厳密実行」への転換

自己検証行動の出現

メモリの活用改善

主要プラットフォームの評価一覧

料金体系と移行ガイド

据え置き価格

移行時のチェックポイント

ステップ1: 評価環境の構築

ステップ2: プロンプトの再調整

ステップ3: エフォートレベルの選定

ステップ4: task budgetsの導入

ステップ5: 本番切り替えと監視

まとめ：Opus 4.7はエージェンティック開発の「信頼閾値」を超えた

Claude Designとは？AIビジュアルプロトタイピングからClaude Codeへの一気通貫ワークフロー

Claude Codeルーチンとは？PCを閉じても開発が継続するバックグラウンド自動実行の全容

OpenAI Agents SDK新機能：サンドボックス実行・モデルネイティブハーネス・MCP統合の全容

Claude Managed Agentsとは？簡単導入の裏にあるベンダーロックインリスクと3社比較