OpenAI e Paradigm lançam EVMbench, o primeiro benchmark de segurança de IA. A IA agora explora 72% dos bugs críticos, mas o incidente Moonwell mostra por que humanos ainda importam.

Marcus Webb
Líder de Pesquisa DeFi

Em 18 de fevereiro, OpenAI e Paradigm lançaram o EVMbench, o primeiro benchmark de código aberto para avaliar agentes de IA em segurança de smart contracts. Em seis meses, os principais modelos de IA passaram de explorar 20% dos bugs críticos de DeFi para mais de 70%. Mas apenas três dias antes do lançamento, um bug de código gerado por IA custou à Moonwell $1,78 milhões.
Esse timing não foi uma coincidência. O incidente da Moonwell e o lançamento do EVMbench marcam um ponto de inflexão crítico para a segurança DeFi. Com $3,4 bilhões roubados em hacks de criptomoedas durante 2025 e mais de $100 bilhões bloqueados em smart contracts, a questão não é mais se a IA terá um papel na segurança. É com que velocidade, e a que custo quando as coisas dão errado.
EVMbench é um benchmark de código aberto construído a partir de 120 vulnerabilidades curadas em 40 auditorias de segurança profissionais. A maioria vem de competições de auditoria do Code4rena, onde pesquisadores de segurança competem para encontrar bugs, além de vários cenários das auditorias blockchain Tempo da Paradigm.
O benchmark testa agentes de IA em três tarefas distintas:
Cada modo desafia um aspecto diferente do raciocínio de segurança. A detecção requer escanear grandes bases de código e identificar falhas sutis. A correção exige compreender as premissas de design por trás do código. A exploração requer encadear múltiplas etapas em um ataque funcional.
Os resultados principais mostram progresso dramático em uma janela curta:
| Modelo | Modo Exploit | Modo Patch | Modo Detect |
|---|---|---|---|
| GPT-5.3-Codex | 72,2% | 41,5% | - |
| Claude Opus 4.6 | - | - | 45,6% |
| GPT-5 (baseline) | 31,9% | - | - |
Quando o projeto começou em meados de 2025, os principais modelos exploravam menos de 20% dos bugs críticos do Code4rena. O GPT-5.3-Codex agora lida com mais de 70%, uma melhoria de 3,6x em aproximadamente seis meses.
O modo de exploração é onde os agentes de IA têm melhor desempenho porque o objetivo é explícito: drenar fundos ou acionar uma condição de falha. A detecção continua sendo a área mais fraca porque os agentes tendem a parar depois de encontrar um problema, em vez de escanear exaustivamente toda a base de código.
A diferença de desempenho específica da tarefa importa. A IA se destaca na execução de padrões de ataque conhecidos, mas luta com a natureza aberta da descoberta. Isso reflete um desafio bem conhecido em segurança: encontrar novas vulnerabilidades requer criatividade, não apenas reconhecimento de padrões.
Três dias antes do lançamento do EVMbench, a Moonwell perdeu $1,78 milhões devido a um bug em código gerado por IA. O pull request com falha, coescrito pelo Claude Opus 4.6, usou a taxa de câmbio bruta cbETH/ETH em vez de multiplicá-la pelo feed de preço ETH/USD. O resultado: cbETH foi avaliado em $1,12 em vez de aproximadamente $2.200.
Isso não foi um exploit zero-day complexo. Foi uma configuração incorreta de oráculo simples, exatamente o tipo de bug que uma auditoria adequada detectaria em minutos. O incidente se tornou a primeira grande falha de segurança da era da "vibe coding", onde desenvolvedores confiam cada vez mais na IA para gerar código de produção para sistemas financeiros.
O incidente da Moonwell destaca uma lacuna crítica: a IA está ficando melhor em encontrar bugs no código de outras pessoas, mas o código gerado por IA ainda requer revisão especializada. As ferramentas para detecção e os riscos de geração são dois lados da mesma moeda.
A escala do problema é impressionante. A Chainalysis relatou $3,4 bilhões roubados em roubos de criptomoedas durante 2025, com o Q1 de 2025 sozinho respondendo por $1,64 bilhões (impulsionado em grande parte pelo hack de $1,5 bilhões da Bybit).
A OWASP lançou seu atualizado Smart Contract Top 10 para 2026, com mudanças notáveis:
As mudanças da OWASP refletem uma mudança para vetores de ataque mais sofisticados. Bugs simples de reentrância estão diminuindo à medida que compiladores adicionam proteções, mas falhas de lógica de negócio e manipulação de oráculo exigem entender como os protocolos interagem, algo que ferramentas tradicionais de análise estática perdem.
As empresas de segurança estabelecidas não estão paradas. A CertiK, que completou mais de 5.500 auditorias, agora integra IA e verificação formal em seu fluxo de trabalho. A OpenZeppelin lançou uma ferramenta Contracts MCP alimentada por IA. A Trail of Bits continua construindo ferramentas de código aberto como Slither, Echidna e Medusa para detecção automatizada de vulnerabilidades.
O consenso emergindo entre profissionais de segurança é um modelo híbrido:
O resultado provável não é a IA substituindo auditores, mas a IA aumentando-os. Um pipeline de segurança prático em 2026 se parece com isto: análise de IA durante o desenvolvimento para verificação contínua, seguida de auditorias especializadas colaborativas para revisão de design, depois auditorias competitivas no Code4rena para amplitude e, finalmente, bug bounties pós-implantação para proteção contínua.
O capital de risco está apostando pesado nessa convergência. De acordo com a Crunchbase, $18 bilhões foram investidos em startups de segurança e privacidade em 2025, alta de 26% em relação a 2024. O financiamento em estágio inicial (Séries A/B) saltou 63% para $7,5 bilhões, grande parte impulsionada pela convergência IA-segurança.
O ecossistema de startups de segurança de IA especificamente levantou $8,5 bilhões em 175 empresas entre janeiro de 2024 e dezembro de 2025. O Q4 de 2025 sozinho viu $2,17 bilhões em 28 negócios, representando crescimento de 8x no financiamento trimestral em dois anos.
A Califórnia domina com $2,7 bilhões em 62 empresas, mais do que todos os mercados não americanos combinados. Essa concentração reflete o profundo pool de talentos na interseção da pesquisa de IA e segurança blockchain.
Para participantes DeFi comuns, o EVMbench sinaliza várias mudanças práticas:
A qualidade da auditoria melhora. Projetos usando auditorias aumentadas por IA detectarão mais bugs antes da implantação. Procure protocolos que mencionem segurança assistida por IA junto com auditorias tradicionais em sua documentação.
Os custos diminuem. A OpenAI afirma que o EVMbench pode reduzir os tempos de auditoria em até 80%. Projetos menores que anteriormente não podiam pagar auditorias abrangentes podem ganhar acesso a melhores ferramentas de segurança.
Novos riscos surgem. À medida que mais desenvolvedores usam IA para escrever código de smart contract, os bugs no estilo Moonwell podem se tornar mais comuns antes que o ecossistema desenvolva processos de revisão adequados. Preste atenção se os protocolos separam a revisão de código gerado por IA do desenvolvimento padrão.
A detecção melhora, mas lentamente. A taxa de detecção de 45,6% para o Claude Opus 4.6 significa que a IA ainda perde mais da metade das vulnerabilidades críticas durante a descoberta. O EVMbench é de código aberto e impulsionará iteração rápida, mas auditores humanos permanecem essenciais no futuro próximo.
Aviso Legal: Este artigo é apenas para fins informativos e não constitui aconselhamento financeiro. Investimentos em criptomoedas carregam riscos significativos. Sempre conduza sua própria pesquisa e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
O EVMbench é de código aberto e disponível no GitHub, o que significa que a comunidade de pesquisa de IA mais ampla agora pode comparar e melhorar seus modelos contra vulnerabilidades DeFi reais. A taxa de exploração de 72% provavelmente subirá. A taxa de detecção de 45,6% tem mais espaço para crescer.
O verdadeiro teste não é se a IA pode igualar auditores humanos em padrões de vulnerabilidade conhecidos. É se a IA pode detectar os bugs desconhecidos, os novos vetores de ataque que não foram vistos antes. Até que as taxas de detecção se aproximem das taxas de exploração, o modelo híbrido de segurança humana assistida por IA permanece o padrão ouro.
Para protocolos DeFi gerenciando bilhões em fundos de usuários, a mensagem é clara: ferramentas de segurança alimentadas por IA não são mais opcionais, mas a supervisão humana também não é. Os protocolos que combinam ambos definirão a próxima era da segurança DeFi.
Análise de mercado e insights acionáveis. Sem spam, nunca.