EVMbench: Can AI Agents Secure DeFi Better Than Humans?

Em 18 de fevereiro, OpenAI e Paradigm lançaram o EVMbench, o primeiro benchmark de código aberto para avaliar agentes de IA em segurança de smart contracts. Em seis meses, os principais modelos de IA passaram de explorar 20% dos bugs críticos de DeFi para mais de 70%. Mas apenas três dias antes do lançamento, um bug de código gerado por IA custou à Moonwell $1,78 milhões.

Esse timing não foi uma coincidência. O incidente da Moonwell e o lançamento do EVMbench marcam um ponto de inflexão crítico para a segurança DeFi. Com $3,4 bilhões roubados em hacks de criptomoedas durante 2025 e mais de $100 bilhões bloqueados em smart contracts, a questão não é mais se a IA terá um papel na segurança. É com que velocidade, e a que custo quando as coisas dão errado.

O Que É o EVMbench?

EVMbench é um benchmark de código aberto construído a partir de 120 vulnerabilidades curadas em 40 auditorias de segurança profissionais. A maioria vem de competições de auditoria do Code4rena, onde pesquisadores de segurança competem para encontrar bugs, além de vários cenários das auditorias blockchain Tempo da Paradigm.

O benchmark testa agentes de IA em três tarefas distintas:

Detect

Encontrar vulnerabilidades no código

Patch

Corrigir bugs sem quebrar o código

Exploit

Executar ataques em sandbox

Cada modo desafia um aspecto diferente do raciocínio de segurança. A detecção requer escanear grandes bases de código e identificar falhas sutis. A correção exige compreender as premissas de design por trás do código. A exploração requer encadear múltiplas etapas em um ataque funcional.

Os Números: Desempenho da IA no EVMbench

Os resultados principais mostram progresso dramático em uma janela curta:

Modelo	Modo Exploit	Modo Patch	Modo Detect
GPT-5.3-Codex	72,2%	41,5%	-
Claude Opus 4.6	-	-	45,6%
GPT-5 (baseline)	31,9%	-	-

Quando o projeto começou em meados de 2025, os principais modelos exploravam menos de 20% dos bugs críticos do Code4rena. O GPT-5.3-Codex agora lida com mais de 70%, uma melhoria de 3,6x em aproximadamente seis meses.

💡

O modo de exploração é onde os agentes de IA têm melhor desempenho porque o objetivo é explícito: drenar fundos ou acionar uma condição de falha. A detecção continua sendo a área mais fraca porque os agentes tendem a parar depois de encontrar um problema, em vez de escanear exaustivamente toda a base de código.

A diferença de desempenho específica da tarefa importa. A IA se destaca na execução de padrões de ataque conhecidos, mas luta com a natureza aberta da descoberta. Isso reflete um desafio bem conhecido em segurança: encontrar novas vulnerabilidades requer criatividade, não apenas reconhecimento de padrões.

O Alerta da Moonwell

Três dias antes do lançamento do EVMbench, a Moonwell perdeu $1,78 milhões devido a um bug em código gerado por IA. O pull request com falha, coescrito pelo Claude Opus 4.6, usou a taxa de câmbio bruta cbETH/ETH em vez de multiplicá-la pelo feed de preço ETH/USD. O resultado: cbETH foi avaliado em $1,12 em vez de aproximadamente $2.200.

Isso não foi um exploit zero-day complexo. Foi uma configuração incorreta de oráculo simples, exatamente o tipo de bug que uma auditoria adequada detectaria em minutos. O incidente se tornou a primeira grande falha de segurança da era da "vibe coding", onde desenvolvedores confiam cada vez mais na IA para gerar código de produção para sistemas financeiros.

⚠️

O incidente da Moonwell destaca uma lacuna crítica: a IA está ficando melhor em encontrar bugs no código de outras pessoas, mas o código gerado por IA ainda requer revisão especializada. As ferramentas para detecção e os riscos de geração são dois lados da mesma moeda.

Por Que DeFi Precisa de Melhor Segurança Agora

A escala do problema é impressionante. A Chainalysis relatou $3,4 bilhões roubados em roubos de criptomoedas durante 2025, com o Q1 de 2025 sozinho respondendo por $1,64 bilhões (impulsionado em grande parte pelo hack de $1,5 bilhões da Bybit).

A OWASP lançou seu atualizado Smart Contract Top 10 para 2026, com mudanças notáveis:

Controle de Acesso permanece a ameaça principal ($953,2M em perdas em 2025)
Falhas de Lógica de Negócio elevada para #2 (erros de design no nível do protocolo)
Ataques de Reentrância ainda causam $35,7M em perdas anuais
Manipulação de Oráculo permanece uma ameaça persistente em protocolos de empréstimo
Problemas de Proxy e Atualizabilidade entraram no top 10 pela primeira vez

As mudanças da OWASP refletem uma mudança para vetores de ataque mais sofisticados. Bugs simples de reentrância estão diminuindo à medida que compiladores adicionam proteções, mas falhas de lógica de negócio e manipulação de oráculo exigem entender como os protocolos interagem, algo que ferramentas tradicionais de análise estática perdem.

A Indústria Tradicional de Auditoria Responde

As empresas de segurança estabelecidas não estão paradas. A CertiK, que completou mais de 5.500 auditorias, agora integra IA e verificação formal em seu fluxo de trabalho. A OpenZeppelin lançou uma ferramenta Contracts MCP alimentada por IA. A Trail of Bits continua construindo ferramentas de código aberto como Slither, Echidna e Medusa para detecção automatizada de vulnerabilidades.

O consenso emergindo entre profissionais de segurança é um modelo híbrido:

✓Pontos Fortes da IA

Processa milhares de linhas de código em minutos Identifica padrões de vulnerabilidade conhecidos em escala Reduz o tempo de auditoria em até 80% Disponível 24/7 para monitoramento contínuo

✓Pontos Fortes Humanos

Descobre novos vetores de ataque Entende lógica de negócio e incentivos econômicos Detecta bugs adversariais ou dependentes de contexto Toma decisões sobre risco aceitável

O resultado provável não é a IA substituindo auditores, mas a IA aumentando-os. Um pipeline de segurança prático em 2026 se parece com isto: análise de IA durante o desenvolvimento para verificação contínua, seguida de auditorias especializadas colaborativas para revisão de design, depois auditorias competitivas no Code4rena para amplitude e, finalmente, bug bounties pós-implantação para proteção contínua.

$8,5 Bilhões em Financiamento de Segurança de IA

O capital de risco está apostando pesado nessa convergência. De acordo com a Crunchbase, $18 bilhões foram investidos em startups de segurança e privacidade em 2025, alta de 26% em relação a 2024. O financiamento em estágio inicial (Séries A/B) saltou 63% para $7,5 bilhões, grande parte impulsionada pela convergência IA-segurança.

O ecossistema de startups de segurança de IA especificamente levantou $8,5 bilhões em 175 empresas entre janeiro de 2024 e dezembro de 2025. O Q4 de 2025 sozinho viu $2,17 bilhões em 28 negócios, representando crescimento de 8x no financiamento trimestral em dois anos.

A Califórnia domina com $2,7 bilhões em 62 empresas, mais do que todos os mercados não americanos combinados. Essa concentração reflete o profundo pool de talentos na interseção da pesquisa de IA e segurança blockchain.

O Que Isso Significa para Usuários DeFi

Para participantes DeFi comuns, o EVMbench sinaliza várias mudanças práticas:

A qualidade da auditoria melhora. Projetos usando auditorias aumentadas por IA detectarão mais bugs antes da implantação. Procure protocolos que mencionem segurança assistida por IA junto com auditorias tradicionais em sua documentação.

Os custos diminuem. A OpenAI afirma que o EVMbench pode reduzir os tempos de auditoria em até 80%. Projetos menores que anteriormente não podiam pagar auditorias abrangentes podem ganhar acesso a melhores ferramentas de segurança.

Novos riscos surgem. À medida que mais desenvolvedores usam IA para escrever código de smart contract, os bugs no estilo Moonwell podem se tornar mais comuns antes que o ecossistema desenvolva processos de revisão adequados. Preste atenção se os protocolos separam a revisão de código gerado por IA do desenvolvimento padrão.

A detecção melhora, mas lentamente. A taxa de detecção de 45,6% para o Claude Opus 4.6 significa que a IA ainda perde mais da metade das vulnerabilidades críticas durante a descoberta. O EVMbench é de código aberto e impulsionará iteração rápida, mas auditores humanos permanecem essenciais no futuro próximo.

Aviso Legal: Este artigo é apenas para fins informativos e não constitui aconselhamento financeiro. Investimentos em criptomoedas carregam riscos significativos. Sempre conduza sua própria pesquisa e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.

O Caminho à Frente

O EVMbench é de código aberto e disponível no GitHub, o que significa que a comunidade de pesquisa de IA mais ampla agora pode comparar e melhorar seus modelos contra vulnerabilidades DeFi reais. A taxa de exploração de 72% provavelmente subirá. A taxa de detecção de 45,6% tem mais espaço para crescer.

O verdadeiro teste não é se a IA pode igualar auditores humanos em padrões de vulnerabilidade conhecidos. É se a IA pode detectar os bugs desconhecidos, os novos vetores de ataque que não foram vistos antes. Até que as taxas de detecção se aproximem das taxas de exploração, o modelo híbrido de segurança humana assistida por IA permanece o padrão ouro.

Para protocolos DeFi gerenciando bilhões em fundos de usuários, a mensagem é clara: ferramentas de segurança alimentadas por IA não são mais opcionais, mas a supervisão humana também não é. Os protocolos que combinam ambos definirão a próxima era da segurança DeFi.

O Que É o EVMbench?

O benchmark testa agentes de IA em três tarefas distintas:

Detect

Encontrar vulnerabilidades no código

Patch

Corrigir bugs sem quebrar o código

Exploit

Executar ataques em sandbox

Os Números: Desempenho da IA no EVMbench

Os resultados principais mostram progresso dramático em uma janela curta:

Modelo	Modo Exploit	Modo Patch	Modo Detect
GPT-5.3-Codex	72,2%	41,5%	-
Claude Opus 4.6	-	-	45,6%
GPT-5 (baseline)	31,9%	-	-

💡

O Alerta da Moonwell

⚠️

Por Que DeFi Precisa de Melhor Segurança Agora

A OWASP lançou seu atualizado Smart Contract Top 10 para 2026, com mudanças notáveis:

Controle de Acesso permanece a ameaça principal ($953,2M em perdas em 2025)
Falhas de Lógica de Negócio elevada para #2 (erros de design no nível do protocolo)
Ataques de Reentrância ainda causam $35,7M em perdas anuais
Manipulação de Oráculo permanece uma ameaça persistente em protocolos de empréstimo
Problemas de Proxy e Atualizabilidade entraram no top 10 pela primeira vez

A Indústria Tradicional de Auditoria Responde

O consenso emergindo entre profissionais de segurança é um modelo híbrido:

✓Pontos Fortes da IA

Processa milhares de linhas de código em minutos Identifica padrões de vulnerabilidade conhecidos em escala Reduz o tempo de auditoria em até 80% Disponível 24/7 para monitoramento contínuo

✓Pontos Fortes Humanos

Descobre novos vetores de ataque Entende lógica de negócio e incentivos econômicos Detecta bugs adversariais ou dependentes de contexto Toma decisões sobre risco aceitável

$8,5 Bilhões em Financiamento de Segurança de IA

O Que Isso Significa para Usuários DeFi

Para participantes DeFi comuns, o EVMbench sinaliza várias mudanças práticas:

Aviso Legal: Este artigo é apenas para fins informativos e não constitui aconselhamento financeiro. Investimentos em criptomoedas carregam riscos significativos. Sempre conduza sua própria pesquisa e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.

EVMbench: Agentes de IA Podem Proteger DeFi Melhor Que Humanos?

O Que É o EVMbench?

Os Números: Desempenho da IA no EVMbench

O Alerta da Moonwell

Por Que DeFi Precisa de Melhor Segurança Agora

A Indústria Tradicional de Auditoria Responde

$8,5 Bilhões em Financiamento de Segurança de IA

O Que Isso Significa para Usuários DeFi

O Caminho à Frente

Tags

Análises Cripto Semanais

EVMbench: Agentes de IA Podem Proteger DeFi Melhor Que Humanos?

O Que É o EVMbench?

Os Números: Desempenho da IA no EVMbench

O Alerta da Moonwell

Por Que DeFi Precisa de Melhor Segurança Agora

A Indústria Tradicional de Auditoria Responde

$8,5 Bilhões em Financiamento de Segurança de IA

O Que Isso Significa para Usuários DeFi

O Caminho à Frente

Tags

Análises Cripto Semanais