EVMbench: Can AI Agents Secure DeFi Better Than Humans?

18 Şubat'ta OpenAI ve Paradigm, yapay zeka ajanlarını akıllı sözleşme güvenliği konusunda değerlendirmek için ilk açık kaynaklı kıyaslama olan EVMbench'i başlattı. Altı ay içinde en iyi yapay zeka modelleri, kritik DeFi hatalarının %20'sini istismar etmekten %70'in üzerine çıktı. Ancak başlatmadan sadece üç gün önce, yapay zeka tarafından oluşturulan bir kod hatası Moonwell'e 1,78 milyon dolara mal oldu.

Bu zamanlama tesadüf değildi. Moonwell olayı ve EVMbench'in yayınlanması, DeFi güvenliği için kritik bir dönüm noktasını işaret ediyor. 2025 yılında kripto saldırılarında 3,4 milyar dolar çalınması ve akıllı sözleşmelerde 100 milyar doların üzerinde değer kilitli olması göz önüne alındığında, soru artık yapay zekanın güvenlikte rol oynayıp oynamayacağı değil. Ne kadar hızlı ve işler ters gittiğinde hangi maliyetle olacağı.

EVMbench Nedir?

EVMbench, 40 profesyonel güvenlik denetiminden derlenen 120 güvenlik açığından oluşan açık kaynaklı bir kıyaslamadır. Bunların çoğu, güvenlik araştırmacılarının hata bulmak için yarıştığı Code4rena denetim yarışmalarından ve Paradigm'in Tempo blokzincir denetimlerinden gelen birkaç senaryodan oluşuyor.

Kıyaslama, yapay zeka ajanlarını üç farklı görevde test ediyor:

Tespit

Koddaki güvenlik açıklarını bulma

Yama

Kodu bozmadan hataları düzeltme

İstismar

Sandbox ortamında saldırıları yürütme

Her mod, güvenlik mantığının farklı bir yönünü test ediyor. Tespit, büyük kod tabanlarını taramayı ve ince kusurları belirlemeyi gerektiriyor. Yama, kodun ardındaki tasarım varsayımlarını anlamayı gerektiriyor. İstismar, birden fazla adımı işleyen bir saldırıya zincirlemeyi gerektiriyor.

Rakamlar: EVMbench'te Yapay Zeka Performansı

Başlık sonuçları kısa bir sürede dramatik ilerleme gösteriyor:

Model	İstismar Modu	Yama Modu	Tespit Modu
GPT-5.3-Codex	72,2%	41,5%	-
Claude Opus 4.6	-	-	45,6%
GPT-5 (temel)	31,9%	-	-

Proje 2025 ortasında başladığında, en iyi modeller kritik Code4rena hatalarının %20'sinden azını istismar ediyordu. GPT-5.3-Codex şimdi %70'in üzerinde başarı sağlıyor, bu da yaklaşık altı ayda 3,6 kat iyileştirme anlamına geliyor.

💡

İstismar modu, yapay zeka ajanlarının en iyi performans gösterdiği alandır çünkü hedef açıktır: fonları boşaltmak veya bir hata durumunu tetiklemek. Tespit, en zayıf alan olarak kalıyor çünkü ajanlar bir sorun bulduktan sonra durma eğiliminde ve tüm kod tabanını kapsamlı şekilde taramıyor.

Göreve özgü performans farkı önemlidir. Yapay zeka, bilinen saldırı modellerini yürütmekte mükemmeldir ancak keşfin açık uçlu doğasıyla mücadele ediyor. Bu, güvenlikte iyi bilinen bir zorluğu yansıtıyor: yeni güvenlik açıklarını bulmak yaratıcılık gerektirir, sadece model tanıma değil.

Moonwell Uyarısı

EVMbench'in başlatılmasından üç gün önce, Moonwell yapay zeka tarafından oluşturulan koddaki bir hata nedeniyle 1,78 milyon dolar kaybetti. Claude Opus 4.6 tarafından birlikte yazılan hatalı çekme isteği, cbETH/ETH döviz oranını ETH/USD fiyat beslemesiyle çarpmak yerine ham oranı kullandı. Sonuç: cbETH, yaklaşık 2.200 dolar yerine 1,12 dolar olarak değerlendi.

Bu karmaşık bir zero-day istismarı değildi. Düzgün bir denetimin dakikalar içinde yakalayacağı basit bir oracle yanlış yapılandırmasıydı. Olay, geliştiricilerin finansal sistemler için üretim kodu oluşturmak üzere giderek daha fazla yapay zekaya güvendiği "vibe coding" çağının ilk büyük güvenlik başarısızlığı oldu.

⚠️

Moonwell olayı kritik bir boşluğu vurguluyor: yapay zeka başkalarının kodundaki hataları bulmakta giderek daha iyi hale geliyor, ancak yapay zeka tarafından oluşturulan kodun kendisi hala uzman incelemesi gerektiriyor. Tespit araçları ve üretim riskleri aynı madalyonun iki yüzüdür.

DeFi Neden Şimdi Daha İyi Güvenliğe İhtiyaç Duyuyor

Sorunun ölçeği şaşırtıcı. Chainalysis, 2025 boyunca kripto hırsızlığında 3,4 milyar dolar çalındığını bildirdi, 2025'in ilk çeyreği tek başına 1,64 milyar dolar oluşturdu (büyük ölçüde 1,5 milyar dolarlık Bybit hack'i tarafından yönlendirildi).

OWASP, güncellenmiş 2026 için Akıllı Sözleşme İlk 10'unu yayınladı ve önemli değişiklikler içeriyor:

Erişim Kontrolü en büyük tehdit olarak kalıyor (2025'te 953,2 milyon dolar kayıp)
İş Mantığı Kusurları 2. sıraya yükseldi (protokol düzeyinde tasarım hataları)
Reentrancy Saldırıları hala yıllık 35,7 milyon dolar kayba neden oluyor
Oracle Manipülasyonu borç verme protokollerinde kalıcı bir tehdit olarak kalıyor
Proxy ve Yükseltilebilirlik Sorunları ilk kez ilk 10'a girdi

OWASP değişiklikleri daha sofistike saldırı vektörlerine doğru bir kaymayı yansıtıyor. Derleyiciler koruma ekledikçe basit reentrancy hataları azalıyor, ancak iş mantığı kusurları ve oracle manipülasyonu, protokollerin nasıl etkileşime girdiğini anlamayı gerektiriyor, geleneksel statik analiz araçlarının gözden kaçırdığı bir şey.

Geleneksel Denetim Endüstrisi Yanıt Veriyor

Yerleşik güvenlik firmaları hareketsiz durmuyor. 5.500'den fazla denetim tamamlayan CertiK, artık yapay zeka ve resmi doğrulamayı iş akışına entegre ediyor. OpenZeppelin, yapay zeka destekli Contracts MCP aracını başlattı. Trail of Bits, otomatik güvenlik açığı tespiti için Slither, Echidna ve Medusa gibi açık kaynaklı araçlar oluşturmaya devam ediyor.

Güvenlik profesyonelleri arasında ortaya çıkan fikir birliği hibrit bir modeldir:

✓Yapay Zeka Güçlü Yönleri

Dakikalar içinde binlerce satır kodu işler Bilinen güvenlik açığı modellerini ölçekte tanımlar Denetim süresini %80'e kadar azaltır Sürekli izleme için 7/24 kullanılabilir

✓İnsan Güçlü Yönleri

Yeni saldırı vektörlerini keşfeder İş mantığını ve ekonomik teşvikleri anlar Karşıt veya bağlama bağlı hataları yakalar Kabul edilebilir risk konusunda yargı çağrıları yapar

Olası sonuç, yapay zekanın denetçilerin yerini alması değil, onları güçlendirmesidir. 2026'da pratik bir güvenlik hattı şöyle görünüyor: sürekli doğrulama için geliştirme sırasında yapay zeka analizi, ardından tasarım incelemesi için işbirlikçi uzman denetimleri, genişlik için Code4rena'da rekabetçi denetimler ve son olarak dağıtım sonrası sürekli koruma için hata ödülleri.

Yapay Zeka Güvenliğinde 8,5 Milyar Dolar Fon

Girişim sermayesi bu birleşmeye büyük bahis oynuyor. Crunchbase'e göre, 2025'te güvenlik ve gizlilik girişimlerine 18 milyar dolar yatırım yapıldı, 2024'e göre %26 artış. Erken aşama fonlama (Seri A/B), büyük ölçüde yapay zeka güvenlik birleşmesi tarafından yönlendirilerek %63 artarak 7,5 milyar dolara sıçradı.

Yapay zeka güvenlik girişimi ekosistemi özellikle Ocak 2024 ile Aralık 2025 arasında 175 şirket genelinde 8,5 milyar dolar topladı. Yalnızca 2025'in 4. çeyreği, 28 anlaşmada 2,17 milyar dolar gördü, bu da iki yılda çeyreklik fonlamada 8 kat büyümeyi temsil ediyor.

Kaliforniya, 62 şirket genelinde 2,7 milyar dolarla hakim konumda ve tüm ABD dışı pazarların toplamından daha fazla. Bu yoğunlaşma, yapay zeka araştırması ve blokzincir güvenliğinin kesişimindeki derin yetenek havuzunu yansıtıyor.

Bu DeFi Kullanıcıları İçin Ne Anlama Geliyor

Günlük DeFi katılımcıları için EVMbench birkaç pratik değişime işaret ediyor:

Denetim kalitesi iyileşiyor. Yapay zeka destekli denetimler kullanan projeler, dağıtımdan önce daha fazla hatayı yakalayacak. Belgelerinde geleneksel denetimlerin yanı sıra yapay zeka destekli güvenlikten bahseden protokollere dikkat edin.

Maliyetler azalıyor. OpenAI, EVMbench'in denetim sürelerini %80'e kadar azaltabileceğini iddia ediyor. Daha önce kapsamlı denetimleri karşılayamayan küçük projeler, daha iyi güvenlik araçlarına erişim kazanabilir.

Yeni riskler ortaya çıkıyor. Daha fazla geliştirici akıllı sözleşme kodu yazmak için yapay zeka kullandıkça, ekosistem uygun inceleme süreçleri geliştirmeden önce Moonwell tarzı hatalar daha yaygın hale gelebilir. Protokollerin yapay zeka tarafından oluşturulan kod incelemelerini standart geliştirmeden ayırıp ayırmadığına dikkat edin.

Tespit iyileşiyor, ancak yavaşça. Claude Opus 4.6 için %45,6'lık tespit oranı, yapay zekanın keşif sırasında hala kritik güvenlik açıklarının yarısından fazlasını kaçırdığı anlamına geliyor. EVMbench açık kaynaktır ve hızlı iterasyonu teşvik edecektir, ancak insan denetçileri öngörülebilir gelecek için gerekli olmaya devam ediyor.

Sorumluluk Reddi: Bu makale yalnızca bilgilendirme amaçlıdır ve finansal tavsiye teşkil etmez. Kripto para yatırımları önemli risk taşır. Yatırım kararları vermeden önce her zaman kendi araştırmanızı yapın ve nitelikli bir mali danışmana danışın.

İleriye Doğru Yol

EVMbench açık kaynaktır ve GitHub'da mevcuttur, bu da daha geniş yapay zeka araştırma topluluğunun artık modellerini gerçek DeFi güvenlik açıklarına karşı kıyaslayabileceği ve geliştirebileceği anlamına geliyor. %72'lik istismar oranı muhtemelen yükselecek. %45,6'lık tespit oranının büyümek için daha fazla alanı var.

Gerçek test, yapay zekanın bilinen güvenlik açığı modellerinde insan denetçilerle eşleşip eşleşemeyeceği değil. Yapay zekanın bilinmeyen hataları, daha önce görülmemiş yeni saldırı vektörlerini yakalayıp yakalayamayacağıdır. Tespit oranları istismar oranlarına yaklaşana kadar, yapay zeka destekli insan güvenliğinin hibrit modeli altın standart olmaya devam ediyor.

Milyarlarca kullanıcı fonunu yöneten DeFi protokolleri için mesaj açık: yapay zeka destekli güvenlik araçları artık isteğe bağlı değil, ancak insan gözetimi de öyle. Her ikisini birleştiren protokoller, DeFi güvenliğinin bir sonraki çağını tanımlayacak.

EVMbench Nedir?

Kıyaslama, yapay zeka ajanlarını üç farklı görevde test ediyor:

Tespit

Koddaki güvenlik açıklarını bulma

Yama

Kodu bozmadan hataları düzeltme

İstismar

Sandbox ortamında saldırıları yürütme

Rakamlar: EVMbench'te Yapay Zeka Performansı

Başlık sonuçları kısa bir sürede dramatik ilerleme gösteriyor:

Model	İstismar Modu	Yama Modu	Tespit Modu
GPT-5.3-Codex	72,2%	41,5%	-
Claude Opus 4.6	-	-	45,6%
GPT-5 (temel)	31,9%	-	-

💡

Moonwell Uyarısı

⚠️

DeFi Neden Şimdi Daha İyi Güvenliğe İhtiyaç Duyuyor

OWASP, güncellenmiş 2026 için Akıllı Sözleşme İlk 10'unu yayınladı ve önemli değişiklikler içeriyor:

Erişim Kontrolü en büyük tehdit olarak kalıyor (2025'te 953,2 milyon dolar kayıp)
İş Mantığı Kusurları 2. sıraya yükseldi (protokol düzeyinde tasarım hataları)
Reentrancy Saldırıları hala yıllık 35,7 milyon dolar kayba neden oluyor
Oracle Manipülasyonu borç verme protokollerinde kalıcı bir tehdit olarak kalıyor
Proxy ve Yükseltilebilirlik Sorunları ilk kez ilk 10'a girdi

Geleneksel Denetim Endüstrisi Yanıt Veriyor

Güvenlik profesyonelleri arasında ortaya çıkan fikir birliği hibrit bir modeldir:

✓Yapay Zeka Güçlü Yönleri

Dakikalar içinde binlerce satır kodu işler Bilinen güvenlik açığı modellerini ölçekte tanımlar Denetim süresini %80'e kadar azaltır Sürekli izleme için 7/24 kullanılabilir

✓İnsan Güçlü Yönleri

Yeni saldırı vektörlerini keşfeder İş mantığını ve ekonomik teşvikleri anlar Karşıt veya bağlama bağlı hataları yakalar Kabul edilebilir risk konusunda yargı çağrıları yapar

Yapay Zeka Güvenliğinde 8,5 Milyar Dolar Fon

Bu DeFi Kullanıcıları İçin Ne Anlama Geliyor

Günlük DeFi katılımcıları için EVMbench birkaç pratik değişime işaret ediyor:

Sorumluluk Reddi: Bu makale yalnızca bilgilendirme amaçlıdır ve finansal tavsiye teşkil etmez. Kripto para yatırımları önemli risk taşır. Yatırım kararları vermeden önce her zaman kendi araştırmanızı yapın ve nitelikli bir mali danışmana danışın.

EVMbench: Yapay Zeka Ajanları DeFi'yi İnsanlardan Daha İyi Güvence Altına Alabilir mi?

EVMbench Nedir?

Rakamlar: EVMbench'te Yapay Zeka Performansı

Moonwell Uyarısı

DeFi Neden Şimdi Daha İyi Güvenliğe İhtiyaç Duyuyor

Geleneksel Denetim Endüstrisi Yanıt Veriyor

Yapay Zeka Güvenliğinde 8,5 Milyar Dolar Fon

Bu DeFi Kullanıcıları İçin Ne Anlama Geliyor

İleriye Doğru Yol

Etiketler

Haftalık Kripto Görüşler

EVMbench: Yapay Zeka Ajanları DeFi'yi İnsanlardan Daha İyi Güvence Altına Alabilir mi?

EVMbench Nedir?

Rakamlar: EVMbench'te Yapay Zeka Performansı

Moonwell Uyarısı

DeFi Neden Şimdi Daha İyi Güvenliğe İhtiyaç Duyuyor

Geleneksel Denetim Endüstrisi Yanıt Veriyor

Yapay Zeka Güvenliğinde 8,5 Milyar Dolar Fon

Bu DeFi Kullanıcıları İçin Ne Anlama Geliyor

İleriye Doğru Yol

Etiketler

Haftalık Kripto Görüşler