OpenAI dan Paradigm meluncurkan EVMbench, benchmark keamanan AI pertama. AI kini mengeksploitasi 72% bug kritis, tetapi insiden Moonwell menunjukkan mengapa manusia tetap penting.

Marcus Webb
DeFi Research Lead

Pada 18 Februari, OpenAI dan Paradigm meluncurkan EVMbench, benchmark sumber terbuka pertama untuk mengevaluasi agen AI pada keamanan smart contract. Dalam enam bulan, model AI terbaik meningkat dari mengeksploitasi 20% bug DeFi kritis menjadi lebih dari 70%. Tetapi hanya tiga hari sebelum peluncuran, bug kode yang dihasilkan AI merugikan Moonwell sebesar $1,78 juta.
Waktu tersebut bukanlah kebetulan. Insiden Moonwell dan peluncuran EVMbench menandai titik kritis untuk keamanan DeFi. Dengan $3,4 miliar dicuri dalam peretasan kripto selama 2025 dan lebih dari $100 miliar terkunci dalam smart contract, pertanyaannya bukan lagi apakah AI akan berperan dalam keamanan. Pertanyaannya adalah seberapa cepat, dan dengan risiko apa ketika terjadi kesalahan.
EVMbench adalah benchmark sumber terbuka yang dibangun dari 120 kerentanan yang dikurasi dari 40 audit keamanan profesional. Sebagian besar berasal dari kompetisi audit Code4rena, di mana peneliti keamanan berkompetisi untuk menemukan bug, ditambah beberapa skenario dari audit blockchain Tempo milik Paradigm.
Benchmark ini menguji agen AI dalam tiga tugas berbeda:
Setiap mode menguji aspek penalaran keamanan yang berbeda. Deteksi memerlukan pemindaian codebase besar dan mengidentifikasi kelemahan yang halus. Patching menuntut pemahaman asumsi desain di balik kode. Eksploitasi memerlukan rangkaian beberapa langkah menjadi serangan yang berhasil.
Hasil utama menunjukkan kemajuan dramatis dalam waktu singkat:
| Model | Exploit Mode | Patch Mode | Detect Mode |
|---|---|---|---|
| GPT-5.3-Codex | 72,2% | 41,5% | - |
| Claude Opus 4.6 | - | - | 45,6% |
| GPT-5 (baseline) | 31,9% | - | - |
Ketika proyek dimulai pada pertengahan 2025, model terbaik mengeksploitasi kurang dari 20% bug Code4rena kritis. GPT-5.3-Codex kini menangani lebih dari 70%, peningkatan 3,6x dalam sekitar enam bulan.
Exploit mode adalah tempat agen AI berkinerja terbaik karena tujuannya eksplisit: menguras dana atau memicu kondisi kegagalan. Deteksi tetap menjadi area terlemah karena agen cenderung berhenti setelah menemukan satu masalah daripada memindai seluruh codebase secara menyeluruh.
Kesenjangan kinerja spesifik tugas ini penting. AI unggul dalam mengeksekusi pola serangan yang diketahui tetapi kesulitan dengan sifat penemuan yang terbuka. Ini mencerminkan tantangan terkenal dalam keamanan: menemukan kerentanan baru memerlukan kreativitas, bukan hanya pengenalan pola.
Tiga hari sebelum EVMbench diluncurkan, Moonwell kehilangan $1,78 juta karena bug dalam kode yang dihasilkan AI. Pull request yang salah, yang ditulis bersama Claude Opus 4.6, menggunakan rasio pertukaran cbETH/ETH mentah alih-alih mengalikannya dengan harga feed ETH/USD. Hasilnya: cbETH dinilai $1,12 alih-alih sekitar $2.200.
Ini bukan eksploitasi zero-day yang kompleks. Ini adalah kesalahan konfigurasi oracle yang sederhana, tepat jenis bug yang akan ditangkap audit yang benar dalam hitungan menit. Insiden ini menjadi kegagalan keamanan besar pertama di era "vibe coding", di mana developer semakin mengandalkan AI untuk menghasilkan kode produksi untuk sistem keuangan.
Insiden Moonwell menyoroti kesenjangan kritis: AI semakin baik dalam menemukan bug di kode orang lain, tetapi kode yang dihasilkan AI sendiri masih memerlukan tinjauan ahli. Alat untuk deteksi dan risiko generasi adalah dua sisi dari koin yang sama.
Skala masalah ini mengejutkan. Chainalysis melaporkan $3,4 miliar dicuri dalam pencurian kripto selama 2025, dengan Q1 2025 saja mencatat $1,64 miliar (sebagian besar didorong oleh peretasan Bybit senilai $1,5 miliar).
OWASP merilis Smart Contract Top 10 untuk 2026 yang diperbarui, dengan perubahan penting:
Perubahan OWASP mencerminkan pergeseran menuju vektor serangan yang lebih canggih. Bug reentrancy sederhana menurun karena compiler menambahkan perlindungan, tetapi kelemahan logika bisnis dan manipulasi oracle memerlukan pemahaman tentang bagaimana protokol berinteraksi, sesuatu yang alat analisis statis tradisional lewatkan.
Perusahaan keamanan mapan tidak diam. CertiK, yang telah menyelesaikan lebih dari 5.500 audit, kini mengintegrasikan AI dan verifikasi formal ke dalam alur kerjanya. OpenZeppelin meluncurkan alat Contracts MCP yang didukung AI. Trail of Bits terus membangun alat sumber terbuka seperti Slither, Echidna, dan Medusa untuk deteksi kerentanan otomatis.
Konsensus yang muncul di antara profesional keamanan adalah model hybrid:
Hasil yang mungkin bukanlah AI menggantikan auditor tetapi AI mendukung mereka. Pipeline keamanan praktis di 2026 terlihat seperti ini: analisis AI selama pengembangan untuk verifikasi berkelanjutan, diikuti oleh audit ahli kolaboratif untuk tinjauan desain, kemudian audit kompetitif di Code4rena untuk cakupan luas, dan akhirnya bug bounty pasca-peluncuran untuk perlindungan berkelanjutan.
Modal ventura bertaruh besar pada konvergensi ini. Menurut Crunchbase, $18 miliar diinvestasikan dalam startup keamanan dan privasi di 2025, naik 26% dari 2024. Pendanaan tahap awal (Seri A/B) melonjak 63% menjadi $7,5 miliar, banyak di antaranya didorong oleh konvergensi AI-keamanan.
Ekosistem startup keamanan AI secara khusus mengumpulkan $8,5 miliar dari 175 perusahaan antara Januari 2024 dan Desember 2025. Q4 2025 saja mencatat $2,17 miliar dari 28 kesepakatan, mewakili pertumbuhan 8x dalam pendanaan kuartalan selama dua tahun.
California mendominasi dengan $2,7 miliar dari 62 perusahaan, lebih dari semua pasar non-AS digabungkan. Konsentrasi ini mencerminkan kumpulan talenta mendalam di persimpangan penelitian AI dan keamanan blockchain.
Bagi peserta DeFi sehari-hari, EVMbench menandakan beberapa pergeseran praktis:
Kualitas audit meningkat. Proyek yang menggunakan audit yang didukung AI akan menangkap lebih banyak bug sebelum peluncuran. Cari protokol yang menyebutkan keamanan dengan bantuan AI di samping audit tradisional dalam dokumentasi mereka.
Biaya menurun. OpenAI mengklaim EVMbench dapat mengurangi waktu audit hingga 80%. Proyek yang lebih kecil yang sebelumnya tidak mampu membayar audit komprehensif mungkin mendapatkan akses ke alat keamanan yang lebih baik.
Risiko baru muncul. Karena lebih banyak developer menggunakan AI untuk menulis kode smart contract, bug gaya Moonwell mungkin menjadi lebih umum sebelum ekosistem mengembangkan proses tinjauan yang tepat. Perhatikan apakah protokol memisahkan tinjauan kode yang dihasilkan AI dari pengembangan standar.
Deteksi meningkat, tetapi perlahan. Tingkat deteksi 45,6% untuk Claude Opus 4.6 berarti AI masih melewatkan lebih dari setengah kerentanan kritis selama penemuan. EVMbench adalah sumber terbuka dan akan mendorong iterasi cepat, tetapi auditor manusia tetap penting untuk masa mendatang.
Disclaimer: Artikel ini hanya untuk tujuan informasi dan bukan merupakan nasihat keuangan. Investasi cryptocurrency membawa risiko signifikan. Selalu lakukan riset Anda sendiri dan konsultasikan dengan penasihat keuangan yang berkualifikasi sebelum membuat keputusan investasi.
EVMbench adalah sumber terbuka dan tersedia di GitHub, yang berarti komunitas penelitian AI yang lebih luas sekarang dapat membandingkan dan meningkatkan model mereka terhadap kerentanan DeFi nyata. Tingkat eksploitasi 72% kemungkinan akan naik. Tingkat deteksi 45,6% memiliki lebih banyak ruang untuk tumbuh.
Tes yang sebenarnya bukanlah apakah AI dapat menyamai auditor manusia pada pola kerentanan yang diketahui. Tes yang sebenarnya adalah apakah AI dapat menangkap bug yang tidak diketahui, vektor serangan baru yang belum pernah dilihat sebelumnya. Sampai tingkat deteksi mendekati tingkat eksploitasi, model hybrid keamanan manusia dengan bantuan AI tetap menjadi standar emas.
Untuk protokol DeFi yang mengelola miliaran dana pengguna, pesannya jelas: alat keamanan yang didukung AI bukan lagi opsional, tetapi pengawasan manusia juga demikian. Protokol yang menggabungkan keduanya akan menentukan era berikutnya dari keamanan DeFi.
Analisis pasar dan wawasan yang dapat ditindaklanjuti. Tanpa spam, selamanya.