EVMbench: Can AI Agents Secure DeFi Better Than Humans?

Le 18 février, OpenAI et Paradigm ont lancé EVMbench, le premier benchmark open-source pour évaluer les agents IA sur la sécurité des smart contracts. En six mois, les meilleurs modèles IA sont passés de 20% à plus de 70% d'exploitation des bugs critiques DeFi. Mais trois jours avant le lancement, un bug dans du code généré par IA a coûté 1,78 million de dollars à Moonwell.

Ce timing n'était pas une coïncidence. L'incident Moonwell et le lancement d'EVMbench encadrent un point d'inflexion critique pour la sécurité DeFi. Avec 3,4 milliards de dollars volés dans des hacks crypto en 2025 et plus de 100 milliards de dollars bloqués dans des smart contracts, la question n'est plus de savoir si l'IA jouera un rôle dans la sécurité. C'est à quelle vitesse, et à quel coût lorsque les choses tournent mal.

Qu'est-ce qu'EVMbench ?

EVMbench est un benchmark open-source construit à partir de 120 vulnérabilités sélectionnées provenant de 40 audits de sécurité professionnels. La plupart viennent de compétitions d'audit Code4rena, où des chercheurs en sécurité rivalisent pour trouver des bugs, plus plusieurs scénarios des audits blockchain Tempo de Paradigm.

Le benchmark teste les agents IA sur trois tâches distinctes :

Détecter

Trouver des vulnérabilités dans le code

Corriger

Réparer les bugs sans casser le code

Exploiter

Exécuter des attaques en sandbox

Chaque mode teste un aspect différent du raisonnement sécuritaire. La détection nécessite de scanner de grandes bases de code et d'identifier des failles subtiles. La correction exige de comprendre les hypothèses de conception derrière le code. L'exploitation requiert de chaîner plusieurs étapes en une attaque fonctionnelle.

Les chiffres : performance de l'IA sur EVMbench

Les résultats principaux montrent des progrès spectaculaires en peu de temps :

Modèle	Mode Exploit	Mode Patch	Mode Détect
GPT-5.3-Codex	72,2%	41,5%	-
Claude Opus 4.6	-	-	45,6%
GPT-5 (baseline)	31,9%	-	-

Quand le projet a démarré mi-2025, les meilleurs modèles exploitaient moins de 20% des bugs critiques Code4rena. GPT-5.3-Codex gère maintenant plus de 70%, une amélioration de 3,6x en environ six mois.

💡

Le mode exploitation est où les agents IA performent le mieux car l'objectif est explicite : drainer des fonds ou déclencher une condition d'échec. La détection reste le domaine le plus faible car les agents ont tendance à s'arrêter après avoir trouvé un problème plutôt que de scanner exhaustivement toute la base de code.

L'écart de performance spécifique aux tâches est important. L'IA excelle à exécuter des schémas d'attaque connus mais peine avec la nature ouverte de la découverte. Cela reflète un défi bien connu en sécurité : trouver de nouvelles vulnérabilités nécessite de la créativité, pas seulement de la reconnaissance de motifs.

L'alerte Moonwell

Trois jours avant le lancement d'EVMbench, Moonwell a perdu 1,78 million de dollars à cause d'un bug dans du code généré par IA. La pull request défectueuse, co-écrite par Claude Opus 4.6, utilisait le ratio d'échange brut cbETH/ETH au lieu de le multiplier par le flux de prix ETH/USD. Résultat : cbETH était valorisé à 1,12 $ au lieu d'environ 2 200 $.

Ce n'était pas un exploit zero-day complexe. C'était une simple mauvaise configuration d'oracle, exactement le type de bug qu'un audit approprié détecterait en quelques minutes. L'incident est devenu le premier échec de sécurité majeur de l'ère du « vibe coding », où les développeurs s'appuient de plus en plus sur l'IA pour générer du code de production pour les systèmes financiers.

⚠️

L'incident Moonwell met en évidence un fossé critique : l'IA s'améliore pour trouver des bugs dans le code des autres, mais le code généré par IA lui-même nécessite toujours un examen expert. Les outils de détection et les risques de génération sont les deux faces d'une même pièce.

Pourquoi la DeFi a besoin d'une meilleure sécurité maintenant

L'ampleur du problème est stupéfiante. Chainalysis a rapporté 3,4 milliards de dollars volés dans des vols crypto en 2025, le T1 2025 seul représentant 1,64 milliard de dollars (largement dû au hack Bybit de 1,5 milliard de dollars).

OWASP a publié son Smart Contract Top 10 mis à jour pour 2026, avec des changements notables :

Contrôle d'accès reste la menace principale (953,2 M$ de pertes en 2025)
Défauts de logique métier élevé au rang 2 (erreurs de conception au niveau protocole)
Attaques de réentrance causent encore 35,7 M$ de pertes annuelles
Manipulation d'oracle reste une menace persistante sur les protocoles de prêt
Problèmes de proxy et d'upgradeabilité entrent dans le top 10 pour la première fois

Les changements OWASP reflètent un passage vers des vecteurs d'attaque plus sophistiqués. Les bugs de réentrance simples diminuent à mesure que les compilateurs ajoutent des protections, mais les défauts de logique métier et la manipulation d'oracle nécessitent de comprendre comment les protocoles interagissent, quelque chose que les outils d'analyse statique traditionnels ratent.

L'industrie traditionnelle de l'audit réagit

Les entreprises de sécurité établies ne restent pas immobiles. CertiK, qui a réalisé plus de 5 500 audits, intègre désormais l'IA et la vérification formelle dans son workflow. OpenZeppelin a lancé un outil Contracts MCP alimenté par IA. Trail of Bits continue de développer des outils open-source comme Slither, Echidna et Medusa pour la détection automatisée de vulnérabilités.

Le consensus émergeant parmi les professionnels de la sécurité est un modèle hybride :

✓Forces de l'IA

Traite des milliers de lignes de code en quelques minutes Identifie les schémas de vulnérabilités connus à grande échelle Réduit le temps d'audit jusqu'à 80% Disponible 24/7 pour une surveillance continue

✓Forces humaines

Découvre de nouveaux vecteurs d'attaque Comprend la logique métier et les incitations économiques Détecte les bugs adversariaux ou dépendants du contexte Prend des décisions sur les risques acceptables

Le résultat probable n'est pas que l'IA remplace les auditeurs mais qu'elle les augmente. Un pipeline de sécurité pratique en 2026 ressemble à ceci : analyse IA pendant le développement pour vérification continue, suivie d'audits experts collaboratifs pour la revue de conception, puis audits compétitifs sur Code4rena pour l'étendue, et enfin bug bounties post-déploiement pour une protection continue.

8,5 milliards de dollars de financement en sécurité IA

Le capital-risque mise massivement sur cette convergence. Selon Crunchbase, 18 milliards de dollars ont été investis dans les startups de sécurité et confidentialité en 2025, en hausse de 26% par rapport à 2024. Le financement en phase précoce (Series A/B) a bondi de 63% à 7,5 milliards de dollars, en grande partie grâce à la convergence IA-sécurité.

L'écosystème des startups de sécurité IA a spécifiquement levé 8,5 milliards de dollars sur 175 entreprises entre janvier 2024 et décembre 2025. Le T4 2025 seul a vu 2,17 milliards de dollars sur 28 transactions, représentant une croissance de 8x du financement trimestriel sur deux ans.

La Californie domine avec 2,7 milliards de dollars sur 62 entreprises, plus que tous les marchés non-américains combinés. Cette concentration reflète le vivier de talents profond à l'intersection de la recherche IA et de la sécurité blockchain.

Ce que cela signifie pour les utilisateurs DeFi

Pour les participants DeFi ordinaires, EVMbench signale plusieurs changements pratiques :

La qualité des audits s'améliore. Les projets utilisant des audits augmentés par IA détecteront plus de bugs avant le déploiement. Recherchez les protocoles qui mentionnent la sécurité assistée par IA aux côtés des audits traditionnels dans leur documentation.

Les coûts diminuent. OpenAI affirme qu'EVMbench peut réduire les temps d'audit jusqu'à 80%. Les petits projets qui ne pouvaient pas auparavant se permettre des audits complets pourraient accéder à de meilleurs outils de sécurité.

De nouveaux risques émergent. Alors que de plus en plus de développeurs utilisent l'IA pour écrire du code de smart contract, les bugs de type Moonwell pourraient devenir plus courants avant que l'écosystème ne développe des processus de revue appropriés. Faites attention à si les protocoles séparent leur revue de code généré par IA du développement standard.

La détection s'améliore, mais lentement. Le taux de détection de 45,6% pour Claude Opus 4.6 signifie que l'IA rate encore plus de la moitié des vulnérabilités critiques lors de la découverte. EVMbench est open-source et favorisera une itération rapide, mais les auditeurs humains restent essentiels pour un avenir prévisible.

Avertissement : Cet article est à titre informatif uniquement et ne constitue pas un conseil financier. Les investissements en cryptomonnaies comportent des risques importants. Effectuez toujours vos propres recherches et consultez un conseiller financier qualifié avant de prendre des décisions d'investissement.

La route à suivre

EVMbench est open-source et disponible sur GitHub, ce qui signifie que la communauté de recherche IA plus large peut maintenant benchmarker et améliorer ses modèles contre de vraies vulnérabilités DeFi. Le taux d'exploitation de 72% va probablement grimper. Le taux de détection de 45,6% a plus de marge de progression.

Le vrai test n'est pas de savoir si l'IA peut égaler les auditeurs humains sur les schémas de vulnérabilités connus. C'est de savoir si l'IA peut détecter les bugs inconnus, les nouveaux vecteurs d'attaque qui n'ont jamais été vus auparavant. Jusqu'à ce que les taux de détection approchent les taux d'exploitation, le modèle hybride de sécurité humaine assistée par IA reste la référence absolue.

Pour les protocoles DeFi gérant des milliards de fonds d'utilisateurs, le message est clair : les outils de sécurité alimentés par IA ne sont plus optionnels, mais la surveillance humaine non plus. Les protocoles qui combinent les deux définiront la prochaine ère de la sécurité DeFi.

Qu'est-ce qu'EVMbench ?

Le benchmark teste les agents IA sur trois tâches distinctes :

Détecter

Trouver des vulnérabilités dans le code

Corriger

Réparer les bugs sans casser le code

Exploiter

Exécuter des attaques en sandbox

Les chiffres : performance de l'IA sur EVMbench

Les résultats principaux montrent des progrès spectaculaires en peu de temps :

Modèle	Mode Exploit	Mode Patch	Mode Détect
GPT-5.3-Codex	72,2%	41,5%	-
Claude Opus 4.6	-	-	45,6%
GPT-5 (baseline)	31,9%	-	-

💡

L'alerte Moonwell

⚠️

Pourquoi la DeFi a besoin d'une meilleure sécurité maintenant

OWASP a publié son Smart Contract Top 10 mis à jour pour 2026, avec des changements notables :

Contrôle d'accès reste la menace principale (953,2 M$ de pertes en 2025)
Défauts de logique métier élevé au rang 2 (erreurs de conception au niveau protocole)
Attaques de réentrance causent encore 35,7 M$ de pertes annuelles
Manipulation d'oracle reste une menace persistante sur les protocoles de prêt
Problèmes de proxy et d'upgradeabilité entrent dans le top 10 pour la première fois

L'industrie traditionnelle de l'audit réagit

Le consensus émergeant parmi les professionnels de la sécurité est un modèle hybride :

✓Forces de l'IA

✓Forces humaines

8,5 milliards de dollars de financement en sécurité IA

Ce que cela signifie pour les utilisateurs DeFi

Pour les participants DeFi ordinaires, EVMbench signale plusieurs changements pratiques :

Avertissement : Cet article est à titre informatif uniquement et ne constitue pas un conseil financier. Les investissements en cryptomonnaies comportent des risques importants. Effectuez toujours vos propres recherches et consultez un conseiller financier qualifié avant de prendre des décisions d'investissement.

EVMbench : l'IA peut-elle sécuriser la DeFi mieux que les humains ?

Qu'est-ce qu'EVMbench ?

Les chiffres : performance de l'IA sur EVMbench

L'alerte Moonwell

Pourquoi la DeFi a besoin d'une meilleure sécurité maintenant

L'industrie traditionnelle de l'audit réagit

8,5 milliards de dollars de financement en sécurité IA

Ce que cela signifie pour les utilisateurs DeFi

La route à suivre

Tags

Analyses Crypto Hebdomadaires

EVMbench : l'IA peut-elle sécuriser la DeFi mieux que les humains ?

Qu'est-ce qu'EVMbench ?

Les chiffres : performance de l'IA sur EVMbench

L'alerte Moonwell

Pourquoi la DeFi a besoin d'une meilleure sécurité maintenant

L'industrie traditionnelle de l'audit réagit

8,5 milliards de dollars de financement en sécurité IA

Ce que cela signifie pour les utilisateurs DeFi

La route à suivre

Tags

Analyses Crypto Hebdomadaires