Claude CodeとCodexでコードレビュー対決をしてみた

SECTION 01

1つのAIでは「全問正解」できなかった

結論から書きます。Claude CodeとCodex、どちらも単独では18個の問題を完全に拾いきれませんでした。しかし両方を組み合わせると、ほぼすべての欠陥を網羅できました。

「どちらが優秀か」という比較には、正直あまり意味がありません。実務で重要なのは、それぞれが何を見落とすかです。見落としのパターンが違うからこそ、補完が成立します。

Claude Codeは在庫管理やクーポン処理といったビジネスロジックの不備に鋭く反応しました。一方のCodexは、複数の脆弱性をつなげて「こう攻撃される」という攻撃チェーンを読み解く力を見せています。

複数のAIエージェントを並列運用する中で、それぞれが何を拾って何を落とすかを把握しておかないと、運用設計ができないと感じていました。今回の検証はそこを確かめるためにやったものです。

SECTION 02

18個の問題を仕込んだECカートAPI

検証用に、5ファイル構成のECカートAPIを用意しました。ここに意図的に18箇所の問題を埋め込んでいます。カテゴリはセキュリティ・ロジック・設計の3つです。

セキュリティ系として埋め込んだのは以下の項目です。
- SQLインジェクション（複数箇所で文字列結合）
- JWT秘密鍵のハードコードと起動ログへの出力
- パスワードハッシュをレスポンスに含める設定
- IDOR（他人の注文を閲覧・キャンセル可能）
- CORSのワイルドカード全開放
- リクエストログへの機密情報出力
- 生SQL実行エンドポイントの露出
- 詳細なスタックトレースの返却

ロジック系では、ECサイトとして致命的な仕様バグを仕込みました。
- 浮動小数点演算による税計算の誤差
- 100%超の割引やマイナス決済の許容
- クーポン使用回数の二重カウント
- 在庫の負数許容
- 注文時の在庫再チェック欠如
- キャンセル時の在庫戻し処理の漏れ
- ステータス遷移のバリデーション欠如

設計・パフォーマンス系として、N+1クエリ、トランザクション未使用、as anyの乱用、BCryptのストレッチング回数不足なども含めています。こうした問題は一見動いているように見えるため、発見の難易度が高くなります。

両モデルには同一のプロンプト・同一のコードを渡しました。条件を揃えないと、レビュー性能の差なのかプロンプトの差なのか分からなくなるためです。

SECTION 03

Claude Code：ビジネスロジックの不備を構造的に暴く

Claude Codeの解析は1分未満で完了しました。スピードもさることながら、注目すべきは指摘の中身です。「ECサイトとして正常に動くか」という観点での感度が非常に高いと感じました。

たとえば、在庫管理の不整合を指摘した箇所では、注文時に在庫を再チェックしていない点と、キャンセル時に在庫を戻していない点をセットで挙げています。片方だけ見つけるツールは多いですが、両方を構造的に指摘してきたのが印象的でした。

クーポンの二重カウント問題も、原子性の欠如という根本原因まで踏み込んでいます。浮動小数点の税計算誤差も正確にリスト化されており、修正方針まで具体的に示してくれました。

これまでの経験から言えるのは、こうしたビジネスロジックのバグは一見動いているように見えるのが厄介だということです。テストをすり抜けて本番でクレームが来るのは、まさにこの種類の不備です。そこへの感度が高いのは、開発フローを止めずに品質を上げたい場面で非常に頼りになります。

Claude Codeの指摘は、「何が壊れていて、どう直すべきか」が開発者にとってすぐ実装に移せる形式で整理されていました。レビュー結果をそのままタスクリストとして使えるのは実務的な強みです。

SECTION 04

Codex：単発の脆弱性を攻撃チェーンとして読み解く

Codexの解析には1〜2分ほどかかりました。Claude Codeより時間はかかりますが、その分だけ深い調査をしている印象があります。

最も驚いたのは、複数の脆弱性をつなげた攻撃シナリオを提示してきた点です。「ハードコードされたJWT秘密鍵」と「SQLインジェクション」を紐づけ、「adminトークンを偽造してDB全体を掌握できる」という具体的な被害経路を説明しました。

この「攻撃チェーン」という読み方は、人間のレビューでも見落としやすいポイントです。個々の脆弱性は「まあ直したほうがいいね」で済みがちですが、組み合わさると致命傷になるケースがあります。それを文脈ごとリスクとして伝えてくれる価値は大きいです。

セキュリティの独学は正直なところ攻撃者の思考をなぞる作業であり、多くの開発者にとってハードルが高い分野です。その攻撃者視点の読み方をAIが代行してくれるのは、試行錯誤の中で感じた大きな恩恵でした。

IDORや生SQLエンドポイントの露出についても、リスクの深刻度がコンテキストを含めて説明されている点がCodexの特徴です。「何が危険か」だけでなく「どのくらい危険か」が伝わるレビューになっています。

SECTION 05

指摘の得意・不得意を一覧で見る

両モデルがどの項目を的確に検出したかを◎○△で整理しました。◎は深い理解を伴う的確な指摘、○は検出あり、△は表面的な言及にとどまったことを示します。

セキュリティ系の結果はこうなりました。
- SQLインジェクション：Claude Code ◎ / Codex ◎
- JWT秘密鍵のハードコード：Claude Code ○ / Codex ◎
- パスワードハッシュ露出：Claude Code ○ / Codex ◎
- IDOR・生SQLエンドポイント：Claude Code ○ / Codex ◎
- CORS・ログ機密出力：Claude Code ◎ / Codex ○

ロジック系の結果では、差が顕著になります。
- 浮動小数点計算誤差：Claude Code ◎ / Codex △
- 割引率・クーポン仕様：Claude Code ◎ / Codex △
- 在庫管理の不備：Claude Code ◎ / Codex ○

設計・パフォーマンス系も確認します。
- N+1クエリ・トランザクション：Claude Code ◎ / Codex ○
- as anyの乱用・BCrypt強度：Claude Code ◎ / Codex ○

注目すべきは、両方が◎だった項目と、片方しか拾えなかった項目の差分です。セキュリティの深度ではCodexが圧倒し、ロジック系ではClaude Codeが圧倒するという、きれいな補完関係が見えます。

もし単独運用するなら、開発中のレビューにはClaude Code、リリース前のセキュリティチェックにはCodexという使い分けが自然な選択になります。ただし、両方を通すのが最も確実です。

SECTION 06

実務への組み込み方：/codex:reviewでクロスレビューを回す

検証結果を踏まえると、Claude Codeで実装品質を整えてからCodexでセキュリティをチェックするという順番が実務では最も効きます。この流れを実現するのが、OpenAIが公開した公式プラグイン「codex-plugin-cc」です。

Claude Codeの環境内で/codex:reviewコマンドを実行すると、未コミットの変更やブランチの差分に対してCodexのレビューが走ります。読み取り専用で、コードを書き換えることはありません。

さらに踏み込んだチェックをしたい場合は、/codex:adversarial-reviewが使えます。これは特定の判断やリスク領域に対して、あえて批判的な視点で切り込むモードです。
- /codex:review：通常のコードレビュー（未コミット変更・ブランチ差分対応）
- /codex:adversarial-review：批判的な視点での深掘りレビュー
- /codex:status・/codex:result・/codex:cancel：バックグラウンド実行の管理

以前、「PRを出す前の事前AIレビューとして使えるかもしれない」と考えていた時期がありました。今はそれがプラグインの形で実現されています。Claude Codeで書いてCodexで検証するという流れが、コマンド一つでつながります。

KING CODINGで複数のAIエージェントを並列運用する中でたどり着いた使い分け基準も、この順番と一致しています。ドメインロジックの整合性を先に確保し、セキュリティは別の視点で後からクロスチェックするのが最も合理的です。

SECTION 07

なぜ今「AIクロスレビュー」が必要なのか

AIでコードを書く量が急増した結果、人間のレビューだけでは処理しきれないという現実があります。生産量が増えたぶん、品質のばらつきも大きくなっています。

さらに厄介なのが、AIコーディング支援を使う開発者ほど自分のコードの安全性に高い自信を持ちやすいという構造的な問題です。「AIが確認してくれているはず」という心理的な安心感が、批判的なレビューの動機を削いでしまいます。

AIが生成したコードをAIがレビューする。この構図自体は合理的ですが、1つのAIだけに任せると見落としのパターンも1つに固定されます。今回の検証で見えたとおり、Claude Codeが得意な領域とCodexが得意な領域は明確に異なります。

コーディング速度は確かに上がりました。しかし次のボトルネックは品質担保です。特性の違う複数の「脳」を競わせ、補完させる設計を意識して作ることが、これからの開発体制に欠かせないと考えています。

SECTION 08

賢い1つのAIより、視点が違う2つのAI

今回の検証で分かったことをまとめます。Claude Codeはドメインロジックの不備に強く、Codexはセキュリティの攻撃チェーンに強い。どちらも単独では18個すべてを拾いきれませんでしたが、併用でほぼ完全に網羅できました。

実務で取り入れるなら、以下の流れが最も無駄がありません。
- ステップ1：Claude Codeで実装品質とドメインロジックを整える
- ステップ2：/codex:reviewでセキュリティのクロスチェックをかける
- ステップ3：気になる箇所は/codex:adversarial-reviewで深掘りする

「どちらが上か」を決める必要はありません。見落としのパターンが違うことを把握し、それを設計に組み込むことが重要です。1つのAIへの依存は、見落としパターンへの依存でもあります。

AIクロスレビューは、特別な環境構築なしにプラグイン1つで始められる段階に来ています。まずは手元のコードで/codex:reviewを試してみてください。単独レビューとの指摘の違いに、きっと驚くはずです。

入江慎吾

公式サイト X YouTube

サービスを40個以上つくり、個人開発とAIを使った開発を継続。自作ツールを運用しながら、その実践知を発信しています。

Claude CodeとCodexでコードレビュー対決をしてみた

1つのAIでは「全問正解」できなかった

18個の問題を仕込んだECカートAPI

Claude Code：ビジネスロジックの不備を構造的に暴く

Codex：単発の脆弱性を攻撃チェーンとして読み解く

指摘の得意・不得意を一覧で見る

実務への組み込み方：/codex:reviewでクロスレビューを回す

なぜ今「AIクロスレビュー」が必要なのか

賢い1つのAIより、視点が違う2つのAI

AI爆速開発

関連するノート

Cursorの使い方。開発が速くなる操作手順と設定の実践ガイド

Claude Code×Codexレビュー連携の実践手順

AI時代にエンジニアが伸ばすべきスキルと価値の出し方

この記事の流れで試しやすいツール