OpenAI und Paradigm starten EVMbench, den ersten KI-Sicherheits-Benchmark. KI nutzt nun 72% kritischer Bugs aus, doch der Moonwell-Vorfall zeigt, warum Menschen weiterhin wichtig sind.

Marcus Webb
DeFi-Forschungsleiter

Am 18. Februar starteten OpenAI und Paradigm EVMbench, den ersten Open-Source-Benchmark zur Bewertung von KI-Agenten bei der Smart Contract Sicherheit. In sechs Monaten entwickelten sich Top-KI-Modelle von 20% zu über 70% Ausnutzungsrate kritischer DeFi-Bugs. Doch nur drei Tage vor dem Launch kostete ein KI-generierter Code-Bug Moonwell 1,78 Millionen Dollar.
Dieses Timing war kein Zufall. Der Moonwell-Vorfall und die Veröffentlichung von EVMbench markieren gemeinsam einen kritischen Wendepunkt für die DeFi-Sicherheit. Mit 3,4 Milliarden Dollar an gestohlenen Krypto-Assets im Jahr 2025 und über 100 Milliarden Dollar in Smart Contracts ist die Frage nicht mehr, ob KI eine Rolle in der Sicherheit spielen wird. Es geht darum, wie schnell, und zu welchem Preis, wenn etwas schiefgeht.
EVMbench ist ein Open-Source-Benchmark, der aus 120 kuratierten Schwachstellen aus 40 professionellen Sicherheitsaudits besteht. Die meisten davon stammen aus Code4rena Audit-Wettbewerben, bei denen Sicherheitsforscher um das Finden von Bugs konkurrieren, sowie mehrere Szenarien aus Paradigms Tempo Blockchain-Audits.
Der Benchmark testet KI-Agenten in drei verschiedenen Aufgaben:
Jeder Modus fordert einen anderen Aspekt des Sicherheitsdenkens. Erkennung erfordert das Scannen großer Codebasen und das Identifizieren subtiler Fehler. Behebung verlangt ein Verständnis der Designannahmen hinter dem Code. Ausnutzung erfordert das Verketten mehrerer Schritte zu einem funktionierenden Angriff.
Die Hauptergebnisse zeigen dramatischen Fortschritt in kurzer Zeit:
| Modell | Exploit-Modus | Patch-Modus | Detect-Modus |
|---|---|---|---|
| GPT-5.3-Codex | 72,2% | 41,5% | - |
| Claude Opus 4.6 | - | - | 45,6% |
| GPT-5 (Baseline) | 31,9% | - | - |
Als das Projekt Mitte 2025 startete, nutzten Top-Modelle weniger als 20% kritischer Code4rena-Bugs aus. GPT-5.3-Codex erreicht nun über 70%, eine 3,6-fache Verbesserung in etwa sechs Monaten.
Der Exploit-Modus ist dort, wo KI-Agenten am besten abschneiden, weil das Ziel explizit ist: Gelder abziehen oder eine Fehlerbedingung auslösen. Erkennung bleibt der schwächste Bereich, weil Agenten dazu neigen, nach dem Fund eines Problems zu stoppen, anstatt die gesamte Codebasis erschöpfend zu scannen.
Die aufgabenspezifische Leistungslücke ist wichtig. KI glänzt bei der Ausführung bekannter Angriffsmuster, kämpft aber mit der offenen Natur der Entdeckung. Dies spiegelt eine bekannte Herausforderung in der Sicherheit wider: Neue Schwachstellen zu finden erfordert Kreativität, nicht nur Mustererkennung.
Drei Tage vor dem Launch von EVMbench verlor Moonwell 1,78 Millionen Dollar aufgrund eines Bugs in KI-generiertem Code. Der fehlerhafte Pull Request, co-authored von Claude Opus 4.6, verwendete das rohe cbETH/ETH-Tauschverhältnis, anstatt es mit dem ETH/USD-Preis-Feed zu multiplizieren. Das Ergebnis: cbETH wurde mit 1,12 Dollar bewertet statt mit ungefähr 2.200 Dollar.
Dies war kein komplexer Zero-Day-Exploit. Es war eine einfache Oracle-Fehlkonfiguration, genau die Art von Bug, die ein ordentliches Audit in Minuten erfassen würde. Der Vorfall wurde zum ersten großen Sicherheitsversagen der "Vibe Coding"-Ära, in der Entwickler zunehmend auf KI vertrauen, um Produktionscode für Finanzsysteme zu generieren.
Der Moonwell-Vorfall hebt eine kritische Lücke hervor: KI wird besser darin, Bugs im Code anderer Leute zu finden, aber KI-generierter Code selbst erfordert weiterhin Expertenbewertung. Die Werkzeuge zur Erkennung und die Risiken der Generierung sind zwei Seiten derselben Medaille.
Das Ausmaß des Problems ist erschütternd. Chainalysis berichtete von 3,4 Milliarden Dollar Diebstahl bei Krypto-Hacks im Jahr 2025, wobei allein Q1 2025 für 1,64 Milliarden Dollar verantwortlich war (hauptsächlich getrieben durch den 1,5 Milliarden Dollar Bybit-Hack).
OWASP veröffentlichte seine aktualisierte Smart Contract Top 10 für 2026, mit bemerkenswerten Änderungen:
Die OWASP-Änderungen spiegeln eine Verschiebung hin zu ausgefeilteren Angriffsvektoren wider. Einfache Reentrancy-Bugs nehmen ab, da Compiler Schutzmaßnahmen hinzufügen, aber Business-Logic-Fehler und Oracle-Manipulation erfordern ein Verständnis dafür, wie Protokolle interagieren, etwas, das traditionelle statische Analysetools übersehen.
Die etablierten Sicherheitsfirmen stehen nicht still. CertiK, das über 5.500 Audits abgeschlossen hat, integriert nun KI und formale Verifikation in seinen Workflow. OpenZeppelin startete ein KI-gestütztes Contracts MCP Tool. Trail of Bits baut weiterhin Open-Source-Tools wie Slither, Echidna und Medusa für automatisierte Schwachstellenerkennung.
Der Konsens unter Sicherheitsprofis ist ein Hybridmodell:
Das wahrscheinliche Ergebnis ist nicht, dass KI Auditoren ersetzt, sondern dass KI sie ergänzt. Eine praktische Sicherheits-Pipeline 2026 sieht so aus: KI-Analyse während der Entwicklung zur kontinuierlichen Verifikation, gefolgt von kollaborativen Experten-Audits für Design-Review, dann kompetitive Audits auf Code4rena für Breite, und schließlich Bug Bounties nach Deployment für fortlaufenden Schutz.
Risikokapital setzt stark auf diese Konvergenz. Laut Crunchbase wurden 18 Milliarden Dollar in Sicherheits- und Privacy-Startups im Jahr 2025 investiert, 26% mehr als 2024. Early-Stage-Finanzierung (Series A/B) sprang um 63% auf 7,5 Milliarden Dollar, vieles davon getrieben durch KI-Sicherheits-Konvergenz.
Das KI-Sicherheits-Startup-Ökosystem speziell sammelte 8,5 Milliarden Dollar über 175 Unternehmen zwischen Januar 2024 und Dezember 2025. Allein Q4 2025 verzeichnete 2,17 Milliarden Dollar über 28 Deals, was ein 8-faches Wachstum der vierteljährlichen Finanzierung über zwei Jahre darstellt.
Kalifornien dominiert mit 2,7 Milliarden Dollar über 62 Unternehmen, mehr als alle Nicht-US-Märkte zusammen. Diese Konzentration spiegelt den tiefen Talentpool an der Schnittstelle von KI-Forschung und Blockchain-Sicherheit wider.
Für alltägliche DeFi-Teilnehmer signalisiert EVMbench mehrere praktische Veränderungen:
Audit-Qualität verbessert sich. Projekte, die KI-unterstützte Audits verwenden, werden mehr Bugs vor dem Deployment erfassen. Suchen Sie nach Protokollen, die KI-gestützte Sicherheit neben traditionellen Audits in ihrer Dokumentation erwähnen.
Kosten sinken. OpenAI behauptet, EVMbench könne Audit-Zeiten um bis zu 80% reduzieren. Kleinere Projekte, die sich zuvor keine umfassenden Audits leisten konnten, erhalten möglicherweise Zugang zu besseren Sicherheitstools.
Neue Risiken entstehen. Da mehr Entwickler KI zum Schreiben von Smart Contract Code verwenden, könnten Moonwell-ähnliche Bugs häufiger werden, bevor das Ökosystem ordentliche Review-Prozesse entwickelt. Achten Sie darauf, ob Protokolle ihre KI-generierte Code-Überprüfung von der Standardentwicklung trennen.
Erkennung verbessert sich, aber langsam. Die 45,6% Erkennungsrate für Claude Opus 4.6 bedeutet, dass KI bei der Entdeckung immer noch über die Hälfte kritischer Schwachstellen übersieht. EVMbench ist Open-Source und wird schnelle Iteration vorantreiben, aber menschliche Auditoren bleiben auf absehbare Zeit unverzichtbar.
Haftungsausschluss: Dieser Artikel dient nur zu Informationszwecken und stellt keine Finanzberatung dar. Kryptowährungs-Investitionen bergen erhebliche Risiken. Führen Sie immer Ihre eigene Recherche durch und konsultieren Sie einen qualifizierten Finanzberater, bevor Sie Investitionsentscheidungen treffen.
EVMbench ist Open-Source und verfügbar auf GitHub, was bedeutet, dass die breitere KI-Forschungsgemeinschaft nun ihre Modelle gegen echte DeFi-Schwachstellen benchmarken und verbessern kann. Die 72% Exploit-Rate wird wahrscheinlich steigen. Die 45,6% Erkennungsrate hat mehr Raum zu wachsen.
Der echte Test ist nicht, ob KI menschliche Auditoren bei bekannten Schwachstellenmustern erreichen kann. Es geht darum, ob KI die unbekannten Bugs erfassen kann, die neuartigen Angriffsvektoren, die noch nicht gesehen wurden. Bis die Erkennungsraten die Exploit-Raten erreichen, bleibt das Hybridmodell aus KI-unterstützter menschlicher Sicherheit der Goldstandard.
Für DeFi-Protokolle, die Milliarden an Nutzergeldern verwalten, ist die Botschaft klar: KI-gestützte Sicherheitstools sind nicht mehr optional, aber menschliche Aufsicht auch nicht. Die Protokolle, die beides kombinieren, werden die nächste Ära der DeFi-Sicherheit definieren.
Marktanalysen und umsetzbare Erkenntnisse. Kein Spam, niemals.