EVMbench: Can AI Agents Secure DeFi Better Than Humans?

Am 18. Februar starteten OpenAI und Paradigm EVMbench, den ersten Open-Source-Benchmark zur Bewertung von KI-Agenten bei der Smart Contract Sicherheit. In sechs Monaten entwickelten sich Top-KI-Modelle von 20% zu über 70% Ausnutzungsrate kritischer DeFi-Bugs. Doch nur drei Tage vor dem Launch kostete ein KI-generierter Code-Bug Moonwell 1,78 Millionen Dollar.

Dieses Timing war kein Zufall. Der Moonwell-Vorfall und die Veröffentlichung von EVMbench markieren gemeinsam einen kritischen Wendepunkt für die DeFi-Sicherheit. Mit 3,4 Milliarden Dollar an gestohlenen Krypto-Assets im Jahr 2025 und über 100 Milliarden Dollar in Smart Contracts ist die Frage nicht mehr, ob KI eine Rolle in der Sicherheit spielen wird. Es geht darum, wie schnell, und zu welchem Preis, wenn etwas schiefgeht.

Was ist EVMbench?

EVMbench ist ein Open-Source-Benchmark, der aus 120 kuratierten Schwachstellen aus 40 professionellen Sicherheitsaudits besteht. Die meisten davon stammen aus Code4rena Audit-Wettbewerben, bei denen Sicherheitsforscher um das Finden von Bugs konkurrieren, sowie mehrere Szenarien aus Paradigms Tempo Blockchain-Audits.

Der Benchmark testet KI-Agenten in drei verschiedenen Aufgaben:

Detect

Schwachstellen im Code finden

Patch

Bugs beheben ohne Code zu brechen

Exploit

Angriffe in Sandbox ausführen

Jeder Modus fordert einen anderen Aspekt des Sicherheitsdenkens. Erkennung erfordert das Scannen großer Codebasen und das Identifizieren subtiler Fehler. Behebung verlangt ein Verständnis der Designannahmen hinter dem Code. Ausnutzung erfordert das Verketten mehrerer Schritte zu einem funktionierenden Angriff.

Die Zahlen: KI-Performance bei EVMbench

Die Hauptergebnisse zeigen dramatischen Fortschritt in kurzer Zeit:

Modell	Exploit-Modus	Patch-Modus	Detect-Modus
GPT-5.3-Codex	72,2%	41,5%	-
Claude Opus 4.6	-	-	45,6%
GPT-5 (Baseline)	31,9%	-	-

Als das Projekt Mitte 2025 startete, nutzten Top-Modelle weniger als 20% kritischer Code4rena-Bugs aus. GPT-5.3-Codex erreicht nun über 70%, eine 3,6-fache Verbesserung in etwa sechs Monaten.

💡

Der Exploit-Modus ist dort, wo KI-Agenten am besten abschneiden, weil das Ziel explizit ist: Gelder abziehen oder eine Fehlerbedingung auslösen. Erkennung bleibt der schwächste Bereich, weil Agenten dazu neigen, nach dem Fund eines Problems zu stoppen, anstatt die gesamte Codebasis erschöpfend zu scannen.

Die aufgabenspezifische Leistungslücke ist wichtig. KI glänzt bei der Ausführung bekannter Angriffsmuster, kämpft aber mit der offenen Natur der Entdeckung. Dies spiegelt eine bekannte Herausforderung in der Sicherheit wider: Neue Schwachstellen zu finden erfordert Kreativität, nicht nur Mustererkennung.

Der Moonwell-Weckruf

Drei Tage vor dem Launch von EVMbench verlor Moonwell 1,78 Millionen Dollar aufgrund eines Bugs in KI-generiertem Code. Der fehlerhafte Pull Request, co-authored von Claude Opus 4.6, verwendete das rohe cbETH/ETH-Tauschverhältnis, anstatt es mit dem ETH/USD-Preis-Feed zu multiplizieren. Das Ergebnis: cbETH wurde mit 1,12 Dollar bewertet statt mit ungefähr 2.200 Dollar.

Dies war kein komplexer Zero-Day-Exploit. Es war eine einfache Oracle-Fehlkonfiguration, genau die Art von Bug, die ein ordentliches Audit in Minuten erfassen würde. Der Vorfall wurde zum ersten großen Sicherheitsversagen der "Vibe Coding"-Ära, in der Entwickler zunehmend auf KI vertrauen, um Produktionscode für Finanzsysteme zu generieren.

⚠️

Der Moonwell-Vorfall hebt eine kritische Lücke hervor: KI wird besser darin, Bugs im Code anderer Leute zu finden, aber KI-generierter Code selbst erfordert weiterhin Expertenbewertung. Die Werkzeuge zur Erkennung und die Risiken der Generierung sind zwei Seiten derselben Medaille.

Warum DeFi jetzt bessere Sicherheit braucht

Das Ausmaß des Problems ist erschütternd. Chainalysis berichtete von 3,4 Milliarden Dollar Diebstahl bei Krypto-Hacks im Jahr 2025, wobei allein Q1 2025 für 1,64 Milliarden Dollar verantwortlich war (hauptsächlich getrieben durch den 1,5 Milliarden Dollar Bybit-Hack).

OWASP veröffentlichte seine aktualisierte Smart Contract Top 10 für 2026, mit bemerkenswerten Änderungen:

Access Control bleibt die Top-Bedrohung (953,2 Millionen Dollar Verluste in 2025)
Business Logic Flaws auf #2 hochgestuft (Fehler auf Protokollebene)
Reentrancy Attacks verursachen weiterhin 35,7 Millionen Dollar jährliche Verluste
Oracle Manipulation bleibt eine anhaltende Bedrohung über Lending-Protokolle hinweg
Proxy and Upgradeability Issues erstmals in den Top 10

Die OWASP-Änderungen spiegeln eine Verschiebung hin zu ausgefeilteren Angriffsvektoren wider. Einfache Reentrancy-Bugs nehmen ab, da Compiler Schutzmaßnahmen hinzufügen, aber Business-Logic-Fehler und Oracle-Manipulation erfordern ein Verständnis dafür, wie Protokolle interagieren, etwas, das traditionelle statische Analysetools übersehen.

Die traditionelle Audit-Industrie reagiert

Die etablierten Sicherheitsfirmen stehen nicht still. CertiK, das über 5.500 Audits abgeschlossen hat, integriert nun KI und formale Verifikation in seinen Workflow. OpenZeppelin startete ein KI-gestütztes Contracts MCP Tool. Trail of Bits baut weiterhin Open-Source-Tools wie Slither, Echidna und Medusa für automatisierte Schwachstellenerkennung.

Der Konsens unter Sicherheitsprofis ist ein Hybridmodell:

✓KI-Stärken

Verarbeitet Tausende Zeilen Code in Minuten Identifiziert bekannte Schwachstellenmuster in großem Maßstab Reduziert Audit-Zeit um bis zu 80% Verfügbar 24/7 für kontinuierliche Überwachung

✓Menschliche Stärken

Entdeckt neuartige Angriffsvektoren Versteht Business Logic und wirtschaftliche Anreize Erfasst adversarische oder kontextabhängige Bugs Trifft Ermessensentscheidungen über akzeptables Risiko

Das wahrscheinliche Ergebnis ist nicht, dass KI Auditoren ersetzt, sondern dass KI sie ergänzt. Eine praktische Sicherheits-Pipeline 2026 sieht so aus: KI-Analyse während der Entwicklung zur kontinuierlichen Verifikation, gefolgt von kollaborativen Experten-Audits für Design-Review, dann kompetitive Audits auf Code4rena für Breite, und schließlich Bug Bounties nach Deployment für fortlaufenden Schutz.

8,5 Milliarden Dollar an KI-Sicherheits-Finanzierung

Risikokapital setzt stark auf diese Konvergenz. Laut Crunchbase wurden 18 Milliarden Dollar in Sicherheits- und Privacy-Startups im Jahr 2025 investiert, 26% mehr als 2024. Early-Stage-Finanzierung (Series A/B) sprang um 63% auf 7,5 Milliarden Dollar, vieles davon getrieben durch KI-Sicherheits-Konvergenz.

Das KI-Sicherheits-Startup-Ökosystem speziell sammelte 8,5 Milliarden Dollar über 175 Unternehmen zwischen Januar 2024 und Dezember 2025. Allein Q4 2025 verzeichnete 2,17 Milliarden Dollar über 28 Deals, was ein 8-faches Wachstum der vierteljährlichen Finanzierung über zwei Jahre darstellt.

Kalifornien dominiert mit 2,7 Milliarden Dollar über 62 Unternehmen, mehr als alle Nicht-US-Märkte zusammen. Diese Konzentration spiegelt den tiefen Talentpool an der Schnittstelle von KI-Forschung und Blockchain-Sicherheit wider.

Was dies für DeFi-Nutzer bedeutet

Für alltägliche DeFi-Teilnehmer signalisiert EVMbench mehrere praktische Veränderungen:

Audit-Qualität verbessert sich. Projekte, die KI-unterstützte Audits verwenden, werden mehr Bugs vor dem Deployment erfassen. Suchen Sie nach Protokollen, die KI-gestützte Sicherheit neben traditionellen Audits in ihrer Dokumentation erwähnen.

Kosten sinken. OpenAI behauptet, EVMbench könne Audit-Zeiten um bis zu 80% reduzieren. Kleinere Projekte, die sich zuvor keine umfassenden Audits leisten konnten, erhalten möglicherweise Zugang zu besseren Sicherheitstools.

Neue Risiken entstehen. Da mehr Entwickler KI zum Schreiben von Smart Contract Code verwenden, könnten Moonwell-ähnliche Bugs häufiger werden, bevor das Ökosystem ordentliche Review-Prozesse entwickelt. Achten Sie darauf, ob Protokolle ihre KI-generierte Code-Überprüfung von der Standardentwicklung trennen.

Erkennung verbessert sich, aber langsam. Die 45,6% Erkennungsrate für Claude Opus 4.6 bedeutet, dass KI bei der Entdeckung immer noch über die Hälfte kritischer Schwachstellen übersieht. EVMbench ist Open-Source und wird schnelle Iteration vorantreiben, aber menschliche Auditoren bleiben auf absehbare Zeit unverzichtbar.

Haftungsausschluss: Dieser Artikel dient nur zu Informationszwecken und stellt keine Finanzberatung dar. Kryptowährungs-Investitionen bergen erhebliche Risiken. Führen Sie immer Ihre eigene Recherche durch und konsultieren Sie einen qualifizierten Finanzberater, bevor Sie Investitionsentscheidungen treffen.

Der Weg nach vorn

EVMbench ist Open-Source und verfügbar auf GitHub, was bedeutet, dass die breitere KI-Forschungsgemeinschaft nun ihre Modelle gegen echte DeFi-Schwachstellen benchmarken und verbessern kann. Die 72% Exploit-Rate wird wahrscheinlich steigen. Die 45,6% Erkennungsrate hat mehr Raum zu wachsen.

Der echte Test ist nicht, ob KI menschliche Auditoren bei bekannten Schwachstellenmustern erreichen kann. Es geht darum, ob KI die unbekannten Bugs erfassen kann, die neuartigen Angriffsvektoren, die noch nicht gesehen wurden. Bis die Erkennungsraten die Exploit-Raten erreichen, bleibt das Hybridmodell aus KI-unterstützter menschlicher Sicherheit der Goldstandard.

Für DeFi-Protokolle, die Milliarden an Nutzergeldern verwalten, ist die Botschaft klar: KI-gestützte Sicherheitstools sind nicht mehr optional, aber menschliche Aufsicht auch nicht. Die Protokolle, die beides kombinieren, werden die nächste Ära der DeFi-Sicherheit definieren.

Was ist EVMbench?

Der Benchmark testet KI-Agenten in drei verschiedenen Aufgaben:

Detect

Schwachstellen im Code finden

Patch

Bugs beheben ohne Code zu brechen

Exploit

Angriffe in Sandbox ausführen

Die Zahlen: KI-Performance bei EVMbench

Die Hauptergebnisse zeigen dramatischen Fortschritt in kurzer Zeit:

Modell	Exploit-Modus	Patch-Modus	Detect-Modus
GPT-5.3-Codex	72,2%	41,5%	-
Claude Opus 4.6	-	-	45,6%
GPT-5 (Baseline)	31,9%	-	-

Als das Projekt Mitte 2025 startete, nutzten Top-Modelle weniger als 20% kritischer Code4rena-Bugs aus. GPT-5.3-Codex erreicht nun über 70%, eine 3,6-fache Verbesserung in etwa sechs Monaten.

💡

Der Moonwell-Weckruf

⚠️

Warum DeFi jetzt bessere Sicherheit braucht

OWASP veröffentlichte seine aktualisierte Smart Contract Top 10 für 2026, mit bemerkenswerten Änderungen:

Access Control bleibt die Top-Bedrohung (953,2 Millionen Dollar Verluste in 2025)
Business Logic Flaws auf #2 hochgestuft (Fehler auf Protokollebene)
Reentrancy Attacks verursachen weiterhin 35,7 Millionen Dollar jährliche Verluste
Oracle Manipulation bleibt eine anhaltende Bedrohung über Lending-Protokolle hinweg
Proxy and Upgradeability Issues erstmals in den Top 10

Die traditionelle Audit-Industrie reagiert

Der Konsens unter Sicherheitsprofis ist ein Hybridmodell:

✓KI-Stärken

Verarbeitet Tausende Zeilen Code in Minuten Identifiziert bekannte Schwachstellenmuster in großem Maßstab Reduziert Audit-Zeit um bis zu 80% Verfügbar 24/7 für kontinuierliche Überwachung

✓Menschliche Stärken

Entdeckt neuartige Angriffsvektoren Versteht Business Logic und wirtschaftliche Anreize Erfasst adversarische oder kontextabhängige Bugs Trifft Ermessensentscheidungen über akzeptables Risiko

8,5 Milliarden Dollar an KI-Sicherheits-Finanzierung

Was dies für DeFi-Nutzer bedeutet

Für alltägliche DeFi-Teilnehmer signalisiert EVMbench mehrere praktische Veränderungen:

Haftungsausschluss: Dieser Artikel dient nur zu Informationszwecken und stellt keine Finanzberatung dar. Kryptowährungs-Investitionen bergen erhebliche Risiken. Führen Sie immer Ihre eigene Recherche durch und konsultieren Sie einen qualifizierten Finanzberater, bevor Sie Investitionsentscheidungen treffen.

EVMbench: Können KI-Agenten DeFi besser absichern als Menschen?

Was ist EVMbench?

Die Zahlen: KI-Performance bei EVMbench

Der Moonwell-Weckruf

Warum DeFi jetzt bessere Sicherheit braucht

Die traditionelle Audit-Industrie reagiert

8,5 Milliarden Dollar an KI-Sicherheits-Finanzierung

Was dies für DeFi-Nutzer bedeutet

Der Weg nach vorn

Tags

Wöchentliche Krypto-Einblicke

EVMbench: Können KI-Agenten DeFi besser absichern als Menschen?

Was ist EVMbench?

Die Zahlen: KI-Performance bei EVMbench

Der Moonwell-Weckruf

Warum DeFi jetzt bessere Sicherheit braucht

Die traditionelle Audit-Industrie reagiert

8,5 Milliarden Dollar an KI-Sicherheits-Finanzierung

Was dies für DeFi-Nutzer bedeutet

Der Weg nach vorn

Tags

Wöchentliche Krypto-Einblicke