OpenAI ve Paradigm, ilk yapay zeka güvenlik ölçütü olan EVMbench'i başlattı. Yapay zeka artık kritik hataların %72'sini istismar ediyor, ancak Moonwell olayı insanların neden hala önemli olduğunu gösteriyor.

Marcus Webb
DeFi Araştırma Lideri

18 Şubat'ta OpenAI ve Paradigm, yapay zeka ajanlarını akıllı sözleşme güvenliği konusunda değerlendirmek için ilk açık kaynaklı kıyaslama olan EVMbench'i başlattı. Altı ay içinde en iyi yapay zeka modelleri, kritik DeFi hatalarının %20'sini istismar etmekten %70'in üzerine çıktı. Ancak başlatmadan sadece üç gün önce, yapay zeka tarafından oluşturulan bir kod hatası Moonwell'e 1,78 milyon dolara mal oldu.
Bu zamanlama tesadüf değildi. Moonwell olayı ve EVMbench'in yayınlanması, DeFi güvenliği için kritik bir dönüm noktasını işaret ediyor. 2025 yılında kripto saldırılarında 3,4 milyar dolar çalınması ve akıllı sözleşmelerde 100 milyar doların üzerinde değer kilitli olması göz önüne alındığında, soru artık yapay zekanın güvenlikte rol oynayıp oynamayacağı değil. Ne kadar hızlı ve işler ters gittiğinde hangi maliyetle olacağı.
EVMbench, 40 profesyonel güvenlik denetiminden derlenen 120 güvenlik açığından oluşan açık kaynaklı bir kıyaslamadır. Bunların çoğu, güvenlik araştırmacılarının hata bulmak için yarıştığı Code4rena denetim yarışmalarından ve Paradigm'in Tempo blokzincir denetimlerinden gelen birkaç senaryodan oluşuyor.
Kıyaslama, yapay zeka ajanlarını üç farklı görevde test ediyor:
Her mod, güvenlik mantığının farklı bir yönünü test ediyor. Tespit, büyük kod tabanlarını taramayı ve ince kusurları belirlemeyi gerektiriyor. Yama, kodun ardındaki tasarım varsayımlarını anlamayı gerektiriyor. İstismar, birden fazla adımı işleyen bir saldırıya zincirlemeyi gerektiriyor.
Başlık sonuçları kısa bir sürede dramatik ilerleme gösteriyor:
| Model | İstismar Modu | Yama Modu | Tespit Modu |
|---|---|---|---|
| GPT-5.3-Codex | 72,2% | 41,5% | - |
| Claude Opus 4.6 | - | - | 45,6% |
| GPT-5 (temel) | 31,9% | - | - |
Proje 2025 ortasında başladığında, en iyi modeller kritik Code4rena hatalarının %20'sinden azını istismar ediyordu. GPT-5.3-Codex şimdi %70'in üzerinde başarı sağlıyor, bu da yaklaşık altı ayda 3,6 kat iyileştirme anlamına geliyor.
İstismar modu, yapay zeka ajanlarının en iyi performans gösterdiği alandır çünkü hedef açıktır: fonları boşaltmak veya bir hata durumunu tetiklemek. Tespit, en zayıf alan olarak kalıyor çünkü ajanlar bir sorun bulduktan sonra durma eğiliminde ve tüm kod tabanını kapsamlı şekilde taramıyor.
Göreve özgü performans farkı önemlidir. Yapay zeka, bilinen saldırı modellerini yürütmekte mükemmeldir ancak keşfin açık uçlu doğasıyla mücadele ediyor. Bu, güvenlikte iyi bilinen bir zorluğu yansıtıyor: yeni güvenlik açıklarını bulmak yaratıcılık gerektirir, sadece model tanıma değil.
EVMbench'in başlatılmasından üç gün önce, Moonwell yapay zeka tarafından oluşturulan koddaki bir hata nedeniyle 1,78 milyon dolar kaybetti. Claude Opus 4.6 tarafından birlikte yazılan hatalı çekme isteği, cbETH/ETH döviz oranını ETH/USD fiyat beslemesiyle çarpmak yerine ham oranı kullandı. Sonuç: cbETH, yaklaşık 2.200 dolar yerine 1,12 dolar olarak değerlendi.
Bu karmaşık bir zero-day istismarı değildi. Düzgün bir denetimin dakikalar içinde yakalayacağı basit bir oracle yanlış yapılandırmasıydı. Olay, geliştiricilerin finansal sistemler için üretim kodu oluşturmak üzere giderek daha fazla yapay zekaya güvendiği "vibe coding" çağının ilk büyük güvenlik başarısızlığı oldu.
Moonwell olayı kritik bir boşluğu vurguluyor: yapay zeka başkalarının kodundaki hataları bulmakta giderek daha iyi hale geliyor, ancak yapay zeka tarafından oluşturulan kodun kendisi hala uzman incelemesi gerektiriyor. Tespit araçları ve üretim riskleri aynı madalyonun iki yüzüdür.
Sorunun ölçeği şaşırtıcı. Chainalysis, 2025 boyunca kripto hırsızlığında 3,4 milyar dolar çalındığını bildirdi, 2025'in ilk çeyreği tek başına 1,64 milyar dolar oluşturdu (büyük ölçüde 1,5 milyar dolarlık Bybit hack'i tarafından yönlendirildi).
OWASP, güncellenmiş 2026 için Akıllı Sözleşme İlk 10'unu yayınladı ve önemli değişiklikler içeriyor:
OWASP değişiklikleri daha sofistike saldırı vektörlerine doğru bir kaymayı yansıtıyor. Derleyiciler koruma ekledikçe basit reentrancy hataları azalıyor, ancak iş mantığı kusurları ve oracle manipülasyonu, protokollerin nasıl etkileşime girdiğini anlamayı gerektiriyor, geleneksel statik analiz araçlarının gözden kaçırdığı bir şey.
Yerleşik güvenlik firmaları hareketsiz durmuyor. 5.500'den fazla denetim tamamlayan CertiK, artık yapay zeka ve resmi doğrulamayı iş akışına entegre ediyor. OpenZeppelin, yapay zeka destekli Contracts MCP aracını başlattı. Trail of Bits, otomatik güvenlik açığı tespiti için Slither, Echidna ve Medusa gibi açık kaynaklı araçlar oluşturmaya devam ediyor.
Güvenlik profesyonelleri arasında ortaya çıkan fikir birliği hibrit bir modeldir:
Olası sonuç, yapay zekanın denetçilerin yerini alması değil, onları güçlendirmesidir. 2026'da pratik bir güvenlik hattı şöyle görünüyor: sürekli doğrulama için geliştirme sırasında yapay zeka analizi, ardından tasarım incelemesi için işbirlikçi uzman denetimleri, genişlik için Code4rena'da rekabetçi denetimler ve son olarak dağıtım sonrası sürekli koruma için hata ödülleri.
Girişim sermayesi bu birleşmeye büyük bahis oynuyor. Crunchbase'e göre, 2025'te güvenlik ve gizlilik girişimlerine 18 milyar dolar yatırım yapıldı, 2024'e göre %26 artış. Erken aşama fonlama (Seri A/B), büyük ölçüde yapay zeka güvenlik birleşmesi tarafından yönlendirilerek %63 artarak 7,5 milyar dolara sıçradı.
Yapay zeka güvenlik girişimi ekosistemi özellikle Ocak 2024 ile Aralık 2025 arasında 175 şirket genelinde 8,5 milyar dolar topladı. Yalnızca 2025'in 4. çeyreği, 28 anlaşmada 2,17 milyar dolar gördü, bu da iki yılda çeyreklik fonlamada 8 kat büyümeyi temsil ediyor.
Kaliforniya, 62 şirket genelinde 2,7 milyar dolarla hakim konumda ve tüm ABD dışı pazarların toplamından daha fazla. Bu yoğunlaşma, yapay zeka araştırması ve blokzincir güvenliğinin kesişimindeki derin yetenek havuzunu yansıtıyor.
Günlük DeFi katılımcıları için EVMbench birkaç pratik değişime işaret ediyor:
Denetim kalitesi iyileşiyor. Yapay zeka destekli denetimler kullanan projeler, dağıtımdan önce daha fazla hatayı yakalayacak. Belgelerinde geleneksel denetimlerin yanı sıra yapay zeka destekli güvenlikten bahseden protokollere dikkat edin.
Maliyetler azalıyor. OpenAI, EVMbench'in denetim sürelerini %80'e kadar azaltabileceğini iddia ediyor. Daha önce kapsamlı denetimleri karşılayamayan küçük projeler, daha iyi güvenlik araçlarına erişim kazanabilir.
Yeni riskler ortaya çıkıyor. Daha fazla geliştirici akıllı sözleşme kodu yazmak için yapay zeka kullandıkça, ekosistem uygun inceleme süreçleri geliştirmeden önce Moonwell tarzı hatalar daha yaygın hale gelebilir. Protokollerin yapay zeka tarafından oluşturulan kod incelemelerini standart geliştirmeden ayırıp ayırmadığına dikkat edin.
Tespit iyileşiyor, ancak yavaşça. Claude Opus 4.6 için %45,6'lık tespit oranı, yapay zekanın keşif sırasında hala kritik güvenlik açıklarının yarısından fazlasını kaçırdığı anlamına geliyor. EVMbench açık kaynaktır ve hızlı iterasyonu teşvik edecektir, ancak insan denetçileri öngörülebilir gelecek için gerekli olmaya devam ediyor.
Sorumluluk Reddi: Bu makale yalnızca bilgilendirme amaçlıdır ve finansal tavsiye teşkil etmez. Kripto para yatırımları önemli risk taşır. Yatırım kararları vermeden önce her zaman kendi araştırmanızı yapın ve nitelikli bir mali danışmana danışın.
EVMbench açık kaynaktır ve GitHub'da mevcuttur, bu da daha geniş yapay zeka araştırma topluluğunun artık modellerini gerçek DeFi güvenlik açıklarına karşı kıyaslayabileceği ve geliştirebileceği anlamına geliyor. %72'lik istismar oranı muhtemelen yükselecek. %45,6'lık tespit oranının büyümek için daha fazla alanı var.
Gerçek test, yapay zekanın bilinen güvenlik açığı modellerinde insan denetçilerle eşleşip eşleşemeyeceği değil. Yapay zekanın bilinmeyen hataları, daha önce görülmemiş yeni saldırı vektörlerini yakalayıp yakalayamayacağıdır. Tespit oranları istismar oranlarına yaklaşana kadar, yapay zeka destekli insan güvenliğinin hibrit modeli altın standart olmaya devam ediyor.
Milyarlarca kullanıcı fonunu yöneten DeFi protokolleri için mesaj açık: yapay zeka destekli güvenlik araçları artık isteğe bağlı değil, ancak insan gözetimi de öyle. Her ikisini birleştiren protokoller, DeFi güvenliğinin bir sonraki çağını tanımlayacak.
Piyasa analizi ve uygulanabilir içgörüler. Asla spam yok.