OpenAIとParadigmがAIセキュリティベンチマークの最初のものであるEVMbenchをローンチしました。AIは現在、重要なバグの72%を悪用できますが、Moonwellインシデントは人間がまだ重要である理由を示しています。

Marcus Webb
DeFiリサーチリード

2月18日、OpenAIとParadigmはスマートコントラクトセキュリティにおけるAIエージェントを評価する初のオープンソースベンチマークであるEVMbenchをローンチしました。6ヶ月間で、トップAIモデルは重要なDeFiバグの20%を悪用することから70%以上へと進化しました。しかし、ローンチのわずか3日前に、AI生成コードのバグがMoonwellに178万ドルの損失をもたらしました。
このタイミングは偶然ではありません。MoonwellインシデントとEVMbenchのリリースは、DeFiセキュリティにおける重要な転換点を示しています。2025年に暗号資産ハッキングで34億ドルが盗まれ、スマートコントラクトに1000億ドル以上がロックされている中、問題はもはやAIがセキュリティで役割を果たすかどうかではありません。どれほど速く、そして問題が発生したときにどれほどのコストがかかるかということです。
EVMbenchは、40の専門的セキュリティ監査にわたる120の厳選された脆弱性から構築されたオープンソースベンチマークです。これらのほとんどはCode4rena監査コンペティション(セキュリティ研究者がバグを見つけるために競い合う場)から来ており、さらにParadigmのTempoブロックチェーン監査からのいくつかのシナリオも含まれています。
ベンチマークは3つの異なるタスクでAIエージェントをテストします:
各モードは、セキュリティ推論の異なる側面に挑戦します。検出は大規模なコードベースをスキャンし、微妙な欠陥を特定することを要求します。修正はコードの背後にある設計の前提を理解することを要求します。悪用は複数のステップを連鎖させて動作する攻撃にすることを要求します。
ヘッドラインの結果は、短期間での劇的な進歩を示しています:
| モデル | 悪用モード | 修正モード | 検出モード |
|---|---|---|---|
| GPT-5.3-Codex | 72.2% | 41.5% | - |
| Claude Opus 4.6 | - | - | 45.6% |
| GPT-5 (ベースライン) | 31.9% | - | - |
プロジェクトが2025年半ばに開始されたとき、トップモデルは重要なCode4reabaグの20%未満しか悪用できませんでした。GPT-5.3-Codexは現在70%以上を処理でき、約6ヶ月で3.6倍の改善を達成しました。
悪用モードはAIエージェントが最も優れたパフォーマンスを発揮する領域です。目的が明確だからです: 資金を流出させるか、失敗条件をトリガーします。検出は最も弱い領域のままです。エージェントはコードベース全体を徹底的にスキャンするのではなく、1つの問題を見つけた後に停止する傾向があるためです。
タスク固有のパフォーマンスギャップは重要です。AIは既知の攻撃パターンを実行することに優れていますが、発見のオープンエンドな性質には苦戦しています。これはセキュリティにおけるよく知られた課題を反映しています: 新しい脆弱性を発見するには創造性が必要であり、単なるパターン認識だけではありません。
EVMbenchがローンチされる3日前、MoonwellはAI生成コードのバグにより178万ドルを失いました。Claude Opus 4.6が共同執筆した欠陥のあるプルリクエストは、生のcbETH/ETH交換比率にETH/USD価格フィードを乗じる代わりに使用しました。その結果、cbETHは約2200ドルではなく1.12ドルと評価されました。
これは複雑なゼロデイエクスプロイトではありませんでした。適切な監査であれば数分で発見できる単純なオラクルの誤設定でした。このインシデントは「バイブコーディング」時代の最初の主要なセキュリティ失敗となりました。開発者が金融システムの本番コードを生成するためにAIにますます依存する時代です。
Moonwellインシデントは重要なギャップを浮き彫りにします: AIは他人のコードでバグを見つけることが得意になっていますが、AI生成コード自体はまだ専門家によるレビューを必要としています。検出のためのツールと生成のリスクは同じコインの両面です。
問題の規模は驚異的です。Chainalysisは2025年に暗号資産盗難で34億ドルが盗まれたと報告しており、2025年第1四半期だけで16.4億ドル(主に15億ドルのBybitハックによって駆動)を占めています。
OWASPは更新された2026年のスマートコントラクトトップ10をリリースし、注目すべき変更があります:
OWASPの変更は、より洗練された攻撃ベクトルへのシフトを反映しています。単純なリエントランシーバグはコンパイラが保護を追加するにつれて減少していますが、ビジネスロジックの欠陥とオラクル操作はプロトコルがどのように相互作用するかを理解する必要があり、従来の静的解析ツールでは見逃されるものです。
確立されたセキュリティ企業は静止していません。5500件以上の監査を完了したCertiKは、現在AIと形式検証をワークフローに統合しています。OpenZeppelinはAI搭載のContracts MCPツールをローンチしました。Trail of Bitsは、自動化された脆弱性検出のためのSlither、Echidna、Medusaなどのオープンソースツールを構築し続けています。
セキュリティ専門家の間で浮上しているコンセンサスはハイブリッドモデルです:
可能性の高い結果は、AIが監査人を置き換えることではなく、AIが監査人を強化することです。2026年の実用的なセキュリティパイプラインは次のようになります: 継続的な検証のための開発中のAI分析、設計レビューのための協調的な専門家監査、幅広さのためのCode4reaでの競争的監査、そして展開後の継続的な保護のためのバグバウンティです。
ベンチャーキャピタルはこの収束に大きく賭けています。Crunchbaseによると、2025年にセキュリティとプライバシーのスタートアップに180億ドルが投資されたことが報告されており、2024年から26%増加しました。アーリーステージの資金調達(シリーズA/B)は63%増加して75億ドルに達し、その多くはAIセキュリティの収束によって駆動されました。
AIセキュリティスタートアップエコシステムは特に、2024年1月から2025年12月の間に175社にわたって85億ドルを調達しました。2025年第4四半期だけで28件の取引で21.7億ドルを記録し、2年間で四半期資金調達が8倍に成長しました。
カリフォルニアは62社にわたって27億ドルで支配しており、米国以外のすべての市場を合わせたよりも多いです。この集中は、AI研究とブロックチェーンセキュリティの交差点における深い人材プールを反映しています。
日常的なDeFi参加者にとって、EVMbenchはいくつかの実用的なシフトを示しています:
監査品質が向上します。 AI強化監査を使用するプロジェクトは、展開前により多くのバグを発見します。ドキュメントで従来の監査と並んでAI支援セキュリティを言及するプロトコルを探してください。
コストが減少します。 OpenAIはEVMbenchが監査時間を最大80%削減できると主張しています。以前は包括的な監査を買う余裕がなかった小規模プロジェクトも、より良いセキュリティツールにアクセスできるようになるかもしれません。
新しいリスクが出現します。 より多くの開発者がスマートコントラクトコードを書くためにAIを使用するにつれて、エコシステムが適切なレビュープロセスを開発する前に、Moonwellスタイルのバグがより一般的になる可能性があります。プロトコルがAI生成コードレビューを標準開発から分離しているかどうかに注意してください。
検出は改善しますが、ゆっくりです。 Claude Opus 4.6の45.6%の検出率は、AIが発見中に重要な脆弱性の半分以上をまだ見逃していることを意味します。EVMbenchはオープンソースであり、急速な反復を推進しますが、人間の監査人は予見可能な将来において不可欠なままです。
免責事項: この記事は情報提供のみを目的としており、財務アドバイスを構成するものではありません。暗号資産投資には重大なリスクが伴います。投資決定を行う前に、常に自分自身で調査を行い、資格のある財務アドバイザーに相談してください。
EVMbenchはオープンソースであり、GitHubで利用可能です。これは、より広範なAI研究コミュニティが実際のDeFi脆弱性に対してモデルをベンチマークし、改善できることを意味します。72%の悪用率は上昇する可能性が高いです。45.6%の検出率はより成長の余地があります。
真のテストは、AIが既知の脆弱性パターンで人間の監査人に匹敵できるかどうかではありません。AIが未知のバグ、これまで見たことのない新しい攻撃ベクトルを捕捉できるかどうかです。検出率が悪用率に近づくまで、AI支援による人間のセキュリティのハイブリッドモデルがゴールドスタンダードのままです。
数十億のユーザー資金を管理するDeFiプロトコルにとって、メッセージは明確です: AI搭載セキュリティツールはもはやオプションではありませんが、人間による監視も同様です。両方を組み合わせたプロトコルがDeFiセキュリティの次の時代を定義するでしょう。
市場分析と実用的な洞察。スパムは一切ありません。