Claude Opus 4.7とは何か
Claude Opus 4.7は、Anthropicが2026年4月16日に一般公開した最新のフラッグシップモデルで、エージェンティックAI開発における基盤モデルとして設計されています。
前世代のOpus 4.6でも高い評価を得ていたコーディング・エージェント性能を、Opus 4.7はさらに大幅に強化しました。最大の特徴は「人間が監督しなくても、複雑なタスクを最後まで完遂する自律性」です。CursorのCEO Michael Truell氏は「CursorBenchでOpus 4.7は70%を記録した。Opus 4.6の58%からの意味のある飛躍だ」と評価しています(Anthropic, 2026)。価格はOpus 4.6と同じ入力$5/出力$25(100万トークンあたり)に据え置かれ、API・Amazon Bedrock・Google Cloud Vertex AI・Microsoft Foundryで利用可能です。
Claude Opus 4.7の最大の進化は「自律的なタスク完遂能力」です。指示の厳密な実行、エラーからの自己回復、出力の自己検証という3つの能力が強化され、CursorBench 70%・Rakuten-SWE-Bench 3倍・Notion Agent ツールエラー1/3という結果に表れています。API価格はOpus 4.6と同一で、性能対コストが大幅に改善されました。
主要ベンチマークで見る性能飛躍
Claude Opus 4.7は、コーディング・エージェント・マルチモーダルの3領域で前世代を大幅に上回る結果を記録しています。20社以上のアーリーアクセステスターが独自評価を公開しており、以下に主要な結果を整理します。
コーディング性能
CursorBench(Cursor社の実務ベンチマーク)で70%を達成し、Opus 4.6の58%から12ポイント向上しました。Cursor CEO Michael Truell氏は「自律性と創造的推論で意味のある飛躍」と評しています(Anthropic, 2026)。
楽天のRakuten-SWE-Benchでは、本番環境のタスク解決数がOpus 4.6の3倍に増加。コード品質・テスト品質ともに二桁の改善を記録しました。楽天AI統括マネージャーの加治裕介氏は「エンジニアリングチームが日々出荷する業務にとって、明確なアップグレードだ」と述べています(Anthropic, 2026)。
CodeRabbitのコードレビュー評価では、リコール(検出率)が10%以上向上し、最も検出が困難なバグを複雑なPRで発見できるようになりました。精度は維持したまま、カバレッジが拡大しています(Anthropic, 2026)。
エージェント自律性
Notion AgentのベンチマークではOpus 4.6比で14%以上の改善を達成し、ツールエラーは1/3に減少。「暗黙の要求テスト」を初めてパスし、ツール障害時も実行を継続できるようになった初のモデルです。Notion AI Lead Sarah Sachs氏は「信頼性の飛躍によって、Notion Agentが本当のチームメイトのように感じられる」と評価しています(Anthropic, 2026)。
Ramp社のエージェントチームワークフローでは、ロール忠実度・指示追従・コーディネーション・複雑な推論の全指標で改善。「Opus 4.6と比べてステップバイステップのガイダンスがはるかに少なくて済む」とソフトウェアエンジニアAustin Ray氏が報告しています(Anthropic, 2026)。
マルチモーダル・文書推論
XBOW(自動ペネトレーションテスト)の視覚精度ベンチマークで98.5%を記録。Opus 4.6の54.5%から44ポイントの跳躍です。CEO Oege de Moor氏は「最大の痛点が事実上消滅した」と述べています(Anthropic, 2026)。
画像入力は長辺2,576px(約3.75メガピクセル)に対応し、従来モデルの3倍以上の解像度でビジュアルを処理します。コンピューターユーズエージェントの画面読み取り、複雑なダイアグラムからのデータ抽出、ピクセル単位の精密な参照作業に有効です(Anthropic, 2026)。
Databricks OfficeQA Proの評価では、ソース情報を扱う際のエラーがOpus 4.6比で21%減少。エンタープライズ文書分析で最高性能のClaudeモデルという評価を獲得しています(Anthropic, 2026)。
エージェンティック開発を変える5つの新機能
Opus 4.7と同時に発表された新機能群は、エージェンティック開発のワークフローを根本から変えるものです。ここではDX担当・開発チームが特に注目すべき5つを解説します。
1. xhighエフォートレベル
既存のlow・medium・high・maxに加え、新たにxhigh(extra high)が追加されました。highとmaxの間に位置し、推論深度とレイテンシのトレードオフをより精密に制御できます(Anthropic, 2026)。
Claude Codeではデフォルトのエフォートレベルが全プランでxhighに引き上げられました。Anthropicはコーディングおよびエージェンティックユースケースのテスト時にhighまたはxhighからの開始を推奨しています。
2. /ultrareview スラッシュコマンド
Claude Codeの新コマンド/ultrareviewは、変更差分を通読し、注意深いレビュアーが指摘するであろうバグや設計上の問題を検出する専用レビューセッションを起動します(Anthropic, 2026)。ProおよびMaxプランのClaude Codeユーザーには、試用として3回の無料ultrareviewが付与されています。
3. auto mode(Maxユーザー向け)
Claude Codeの新しい権限オプション「auto mode」がMaxユーザーに拡張されました。Claudeがユーザーに代わって判断を下すモードで、長時間タスクを人間の介入なしで実行できます。通常の権限スキップよりリスクを抑えた設計です(Anthropic, 2026)。
4. task budgets(APIパブリックベータ)
開発者がClaudeのトークン消費をガイドする仕組みで、長時間実行にわたって作業の優先順位付けを可能にします。たとえば「このタスクは最大50,000トークンまで」といった制約を設定でき、エージェントの暴走を防ぎつつ効率的なリソース配分を実現します(Anthropic, 2026)。
5. Cyber Safeguards
Opus 4.7には、禁止または高リスクのサイバーセキュリティ用途を自動検知・ブロックするセーフガードが組み込まれています。Anthropicは先週のProject Glasswing(Mythos Preview)発表で、高度なサイバー能力モデルの段階的リリースを宣言しており、Opus 4.7はその最初のモデルです(Anthropic, 2026)。
正規のセキュリティ専門家(脆弱性調査・ペネトレーションテスト・レッドチーミング)向けには、新設の「Cyber Verification Program」への参加が案内されています。
Opus 4.6からの移行時の注意点: Opus 4.7は更新されたトークナイザーを使用しており、同じ入力が約1.0〜1.35倍のトークンにマッピングされる場合があります。また、高エフォートレベルでは推論量が増えるため出力トークンも増加します。Anthropicのコーディング評価では全エフォートレベルでトークン効率は改善していますが、本番トラフィックでの差分測定を推奨しています。
Opus 4.7が示す「モデルの使い方」の転換
Opus 4.7の進化は、単なるベンチマーク向上にとどまりません。エージェンティックAIの実務的な使い方そのものを変える兆候が見られます。
「指示の厳密実行」への転換
Anthropicの内部テストで明らかになった最大の変化は、指示の文字通りの実行です。以前のモデルは指示を緩く解釈したり、一部をスキップする傾向がありましたが、Opus 4.7は指示をそのまま実行します。その結果、従来のプロンプトが予期しない結果を生むケースがあり、プロンプトの再調整が推奨されています(Anthropic, 2026)。
自己検証行動の出現
Vercel Distinguished Software Engineer Joe Haddad氏は「Opus 4.7はシステムコード上でプルーフ(証明)を実行してから作業を開始する。以前のClaudeモデルでは見られなかった新しい行動だ」と報告しています(Anthropic, 2026)。
Qodo CEO Itamar Friedman氏も「レースコンディションを含む、以前のベストモデルが見逃していた問題を発見・修正した」と述べており、自己検証がエージェント型ワークフローの信頼性を底上げしています(Anthropic, 2026)。
メモリの活用改善
ファイルシステムベースのメモリ利用が改善され、長期間のマルチセッション作業において重要なメモを記憶し、次のタスクに引き継ぐ際の事前コンテキストが少なくて済むようになりました(Anthropic, 2026)。
主要プラットフォームの評価一覧
Opus 4.7のアーリーアクセスには20社以上のパートナー企業が参加しています。以下に、エージェンティックAI開発において特に参考になる評価を抜粋します。
料金体系と移行ガイド
据え置き価格
Opus 4.7の料金はOpus 4.6と同一です。
- 入力: $5 / 100万トークン
- 出力: $25 / 100万トークン
- 利用可能チャネル: Claude API(
claude-opus-4-7)、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry
移行時のチェックポイント
Opus 4.6からのアップグレードは直接的な置き換えとして設計されていますが、2つの変更がトークン使用量に影響します。
- 更新されたトークナイザー: テキスト処理方式の改善により、同じ入力が約1.0〜1.35倍のトークンにマッピングされる場合があります(コンテンツ種類に依存)
- 高エフォートレベルでの推論増加: エージェンティック設定の後半ターンで推論量が増える傾向があり、信頼性は向上しますが出力トークンも増加します
トークン使用量の制御には、エフォートパラメータの調整、task budgetsの設定、簡潔さを指示するプロンプトの追加が有効です。Anthropicの内部コーディング評価では全エフォートレベルでトークン効率が改善しており、移行ガイドが公式ドキュメントで提供されています(Anthropic, 2026)。
ステップ1: 評価環境の構築
ステップ2: プロンプトの再調整
ステップ3: エフォートレベルの選定
ステップ4: task budgetsの導入
ステップ5: 本番切り替えと監視
まとめ:Opus 4.7はエージェンティック開発の「信頼閾値」を超えた
Claude Opus 4.7の最大の意義は、エージェンティック開発における「人間が監督しなくてもいい」閾値を引き上げたことにあります。
指示の厳密実行、ツールエラーからの自己回復、出力の自己検証——これらの能力が組み合わさることで、開発者は「1対1でエージェントと作業する」フェーズから「エージェントを並列管理する」フェーズへ移行できます。Factory CEO Jeff Wang氏が「エンジニアが1対1のエージェント作業から並列管理へシフトする中で、これはまさにワークフローを解放するフロンティア能力だ」と述べている通りです(Anthropic, 2026)。
2026年末までに企業アプリの40%がAIエージェントを搭載する見通しの中(Gartner, 2025)、Opus 4.7はそのエージェント群を支えるベースモデルとして有力な選択肢です。API価格据え置きという点も、移行のハードルを下げています。まずは既存のプロンプトをOpus 4.7で評価し、性能差を自社ワークロードで確認することが最初の一歩です。