OpenAI et Paradigm lancent EVMbench, le premier benchmark de sécurité IA. L'IA exploite désormais 72% des bugs critiques, mais l'incident Moonwell montre pourquoi les humains restent essentiels.

Marcus Webb
Responsable Recherche DeFi

Le 18 février, OpenAI et Paradigm ont lancé EVMbench, le premier benchmark open-source pour évaluer les agents IA sur la sécurité des smart contracts. En six mois, les meilleurs modèles IA sont passés de 20% à plus de 70% d'exploitation des bugs critiques DeFi. Mais trois jours avant le lancement, un bug dans du code généré par IA a coûté 1,78 million de dollars à Moonwell.
Ce timing n'était pas une coïncidence. L'incident Moonwell et le lancement d'EVMbench encadrent un point d'inflexion critique pour la sécurité DeFi. Avec 3,4 milliards de dollars volés dans des hacks crypto en 2025 et plus de 100 milliards de dollars bloqués dans des smart contracts, la question n'est plus de savoir si l'IA jouera un rôle dans la sécurité. C'est à quelle vitesse, et à quel coût lorsque les choses tournent mal.
EVMbench est un benchmark open-source construit à partir de 120 vulnérabilités sélectionnées provenant de 40 audits de sécurité professionnels. La plupart viennent de compétitions d'audit Code4rena, où des chercheurs en sécurité rivalisent pour trouver des bugs, plus plusieurs scénarios des audits blockchain Tempo de Paradigm.
Le benchmark teste les agents IA sur trois tâches distinctes :
Chaque mode teste un aspect différent du raisonnement sécuritaire. La détection nécessite de scanner de grandes bases de code et d'identifier des failles subtiles. La correction exige de comprendre les hypothèses de conception derrière le code. L'exploitation requiert de chaîner plusieurs étapes en une attaque fonctionnelle.
Les résultats principaux montrent des progrès spectaculaires en peu de temps :
| Modèle | Mode Exploit | Mode Patch | Mode Détect |
|---|---|---|---|
| GPT-5.3-Codex | 72,2% | 41,5% | - |
| Claude Opus 4.6 | - | - | 45,6% |
| GPT-5 (baseline) | 31,9% | - | - |
Quand le projet a démarré mi-2025, les meilleurs modèles exploitaient moins de 20% des bugs critiques Code4rena. GPT-5.3-Codex gère maintenant plus de 70%, une amélioration de 3,6x en environ six mois.
Le mode exploitation est où les agents IA performent le mieux car l'objectif est explicite : drainer des fonds ou déclencher une condition d'échec. La détection reste le domaine le plus faible car les agents ont tendance à s'arrêter après avoir trouvé un problème plutôt que de scanner exhaustivement toute la base de code.
L'écart de performance spécifique aux tâches est important. L'IA excelle à exécuter des schémas d'attaque connus mais peine avec la nature ouverte de la découverte. Cela reflète un défi bien connu en sécurité : trouver de nouvelles vulnérabilités nécessite de la créativité, pas seulement de la reconnaissance de motifs.
Trois jours avant le lancement d'EVMbench, Moonwell a perdu 1,78 million de dollars à cause d'un bug dans du code généré par IA. La pull request défectueuse, co-écrite par Claude Opus 4.6, utilisait le ratio d'échange brut cbETH/ETH au lieu de le multiplier par le flux de prix ETH/USD. Résultat : cbETH était valorisé à 1,12 $ au lieu d'environ 2 200 $.
Ce n'était pas un exploit zero-day complexe. C'était une simple mauvaise configuration d'oracle, exactement le type de bug qu'un audit approprié détecterait en quelques minutes. L'incident est devenu le premier échec de sécurité majeur de l'ère du « vibe coding », où les développeurs s'appuient de plus en plus sur l'IA pour générer du code de production pour les systèmes financiers.
L'incident Moonwell met en évidence un fossé critique : l'IA s'améliore pour trouver des bugs dans le code des autres, mais le code généré par IA lui-même nécessite toujours un examen expert. Les outils de détection et les risques de génération sont les deux faces d'une même pièce.
L'ampleur du problème est stupéfiante. Chainalysis a rapporté 3,4 milliards de dollars volés dans des vols crypto en 2025, le T1 2025 seul représentant 1,64 milliard de dollars (largement dû au hack Bybit de 1,5 milliard de dollars).
OWASP a publié son Smart Contract Top 10 mis à jour pour 2026, avec des changements notables :
Les changements OWASP reflètent un passage vers des vecteurs d'attaque plus sophistiqués. Les bugs de réentrance simples diminuent à mesure que les compilateurs ajoutent des protections, mais les défauts de logique métier et la manipulation d'oracle nécessitent de comprendre comment les protocoles interagissent, quelque chose que les outils d'analyse statique traditionnels ratent.
Les entreprises de sécurité établies ne restent pas immobiles. CertiK, qui a réalisé plus de 5 500 audits, intègre désormais l'IA et la vérification formelle dans son workflow. OpenZeppelin a lancé un outil Contracts MCP alimenté par IA. Trail of Bits continue de développer des outils open-source comme Slither, Echidna et Medusa pour la détection automatisée de vulnérabilités.
Le consensus émergeant parmi les professionnels de la sécurité est un modèle hybride :
Le résultat probable n'est pas que l'IA remplace les auditeurs mais qu'elle les augmente. Un pipeline de sécurité pratique en 2026 ressemble à ceci : analyse IA pendant le développement pour vérification continue, suivie d'audits experts collaboratifs pour la revue de conception, puis audits compétitifs sur Code4rena pour l'étendue, et enfin bug bounties post-déploiement pour une protection continue.
Le capital-risque mise massivement sur cette convergence. Selon Crunchbase, 18 milliards de dollars ont été investis dans les startups de sécurité et confidentialité en 2025, en hausse de 26% par rapport à 2024. Le financement en phase précoce (Series A/B) a bondi de 63% à 7,5 milliards de dollars, en grande partie grâce à la convergence IA-sécurité.
L'écosystème des startups de sécurité IA a spécifiquement levé 8,5 milliards de dollars sur 175 entreprises entre janvier 2024 et décembre 2025. Le T4 2025 seul a vu 2,17 milliards de dollars sur 28 transactions, représentant une croissance de 8x du financement trimestriel sur deux ans.
La Californie domine avec 2,7 milliards de dollars sur 62 entreprises, plus que tous les marchés non-américains combinés. Cette concentration reflète le vivier de talents profond à l'intersection de la recherche IA et de la sécurité blockchain.
Pour les participants DeFi ordinaires, EVMbench signale plusieurs changements pratiques :
La qualité des audits s'améliore. Les projets utilisant des audits augmentés par IA détecteront plus de bugs avant le déploiement. Recherchez les protocoles qui mentionnent la sécurité assistée par IA aux côtés des audits traditionnels dans leur documentation.
Les coûts diminuent. OpenAI affirme qu'EVMbench peut réduire les temps d'audit jusqu'à 80%. Les petits projets qui ne pouvaient pas auparavant se permettre des audits complets pourraient accéder à de meilleurs outils de sécurité.
De nouveaux risques émergent. Alors que de plus en plus de développeurs utilisent l'IA pour écrire du code de smart contract, les bugs de type Moonwell pourraient devenir plus courants avant que l'écosystème ne développe des processus de revue appropriés. Faites attention à si les protocoles séparent leur revue de code généré par IA du développement standard.
La détection s'améliore, mais lentement. Le taux de détection de 45,6% pour Claude Opus 4.6 signifie que l'IA rate encore plus de la moitié des vulnérabilités critiques lors de la découverte. EVMbench est open-source et favorisera une itération rapide, mais les auditeurs humains restent essentiels pour un avenir prévisible.
Avertissement : Cet article est à titre informatif uniquement et ne constitue pas un conseil financier. Les investissements en cryptomonnaies comportent des risques importants. Effectuez toujours vos propres recherches et consultez un conseiller financier qualifié avant de prendre des décisions d'investissement.
EVMbench est open-source et disponible sur GitHub, ce qui signifie que la communauté de recherche IA plus large peut maintenant benchmarker et améliorer ses modèles contre de vraies vulnérabilités DeFi. Le taux d'exploitation de 72% va probablement grimper. Le taux de détection de 45,6% a plus de marge de progression.
Le vrai test n'est pas de savoir si l'IA peut égaler les auditeurs humains sur les schémas de vulnérabilités connus. C'est de savoir si l'IA peut détecter les bugs inconnus, les nouveaux vecteurs d'attaque qui n'ont jamais été vus auparavant. Jusqu'à ce que les taux de détection approchent les taux d'exploitation, le modèle hybride de sécurité humaine assistée par IA reste la référence absolue.
Pour les protocoles DeFi gérant des milliards de fonds d'utilisateurs, le message est clair : les outils de sécurité alimentés par IA ne sont plus optionnels, mais la surveillance humaine non plus. Les protocoles qui combinent les deux définiront la prochaine ère de la sécurité DeFi.
Analyses de marché et insights actionnables. Pas de spam, jamais.