OpenAI y Paradigm lanzan EVMbench, el primer benchmark de seguridad con IA. La IA ahora explota el 72% de bugs críticos, pero el incidente de Moonwell muestra por qué los humanos aún importan.

Marcus Webb
Líder de investigación DeFi

El 18 de febrero, OpenAI y Paradigm lanzaron EVMbench, el primer benchmark de código abierto para evaluar agentes IA en seguridad de smart contracts. En seis meses, los principales modelos de IA pasaron de explotar el 20% de bugs críticos de DeFi a más del 70%. Pero solo tres días antes del lanzamiento, un bug de código generado por IA le costó a Moonwell $1.78 millones.
Ese timing no fue una coincidencia. El incidente de Moonwell y el lanzamiento de EVMbench enmarcan un punto de inflexión crítico para la seguridad de DeFi. Con $3.4 mil millones robados en hacks de criptomonedas durante 2025 y más de $100 mil millones bloqueados en smart contracts, la pregunta ya no es si la IA jugará un rol en la seguridad. Es qué tan rápido, y a qué costo cuando las cosas salen mal.
EVMbench es un benchmark de código abierto construido a partir de 120 vulnerabilidades curadas en 40 auditorías de seguridad profesionales. La mayoría proviene de competencias de auditoría de Code4rena, donde investigadores de seguridad compiten para encontrar bugs, más varios escenarios de las auditorías blockchain Tempo de Paradigm.
El benchmark prueba agentes IA en tres tareas distintas:
Cada modo desafía un aspecto diferente del razonamiento de seguridad. La detección requiere escanear grandes bases de código e identificar fallas sutiles. El parcheo exige entender las suposiciones de diseño detrás del código. La explotación requiere encadenar múltiples pasos en un ataque funcional.
Los resultados principales muestran un progreso dramático en una ventana corta:
| Modelo | Modo Explotar | Modo Parchear | Modo Detectar |
|---|---|---|---|
| GPT-5.3-Codex | 72.2% | 41.5% | - |
| Claude Opus 4.6 | - | - | 45.6% |
| GPT-5 (base) | 31.9% | - | - |
Cuando el proyecto comenzó a mediados de 2025, los principales modelos explotaban menos del 20% de bugs críticos de Code4rena. GPT-5.3-Codex ahora maneja más del 70%, una mejora de 3.6x en aproximadamente seis meses.
El modo explotar es donde los agentes IA se desempeñan mejor porque el objetivo es explícito: drenar fondos o activar una condición de falla. La detección sigue siendo el área más débil porque los agentes tienden a detenerse después de encontrar un problema en lugar de escanear exhaustivamente toda la base de código.
La brecha de rendimiento específica por tarea importa. La IA sobresale ejecutando patrones de ataque conocidos pero lucha con la naturaleza abierta del descubrimiento. Esto refleja un desafío bien conocido en seguridad: encontrar nuevas vulnerabilidades requiere creatividad, no solo reconocimiento de patrones.
Tres días antes de que se lanzara EVMbench, Moonwell perdió $1.78 millones debido a un bug en código generado por IA. El pull request defectuoso, coautor de Claude Opus 4.6, usó la tasa de cambio cruda cbETH/ETH en lugar de multiplicarla por el feed de precio ETH/USD. El resultado: cbETH fue valorado en $1.12 en lugar de aproximadamente $2,200.
Este no fue un exploit complejo de día cero. Fue una mala configuración de oráculo directa, exactamente el tipo de bug que una auditoría adecuada detectaría en minutos. El incidente se convirtió en la primera falla de seguridad importante de la era del "vibe coding", donde los desarrolladores dependen cada vez más de la IA para generar código de producción para sistemas financieros.
El incidente de Moonwell resalta una brecha crítica: la IA está mejorando en encontrar bugs en el código de otras personas, pero el código generado por IA en sí mismo aún requiere revisión experta. Las herramientas para la detección y los riesgos de la generación son dos caras de la misma moneda.
La escala del problema es asombrosa. Chainalysis reportó $3.4 mil millones robados en robo de criptomonedas durante 2025, con el Q1 2025 solo representando $1.64 mil millones (impulsado en gran medida por el hack de $1.5 mil millones de Bybit).
OWASP lanzó su Smart Contract Top 10 actualizado para 2026, con cambios notables:
Los cambios de OWASP reflejan un cambio hacia vectores de ataque más sofisticados. Los bugs simples de reentrada están disminuyendo a medida que los compiladores agregan protecciones, pero las fallas de lógica de negocio y la manipulación de oráculo requieren entender cómo interactúan los protocolos, algo que las herramientas tradicionales de análisis estático pierden.
Las firmas de seguridad establecidas no se están quedando quietas. CertiK, que ha completado más de 5,500 auditorías, ahora integra IA y verificación formal en su flujo de trabajo. OpenZeppelin lanzó una herramienta Contracts MCP impulsada por IA. Trail of Bits continúa construyendo herramientas de código abierto como Slither, Echidna y Medusa para detección automática de vulnerabilidades.
El consenso emergente entre los profesionales de seguridad es un modelo híbrido:
El resultado probable no es que la IA reemplace a los auditores sino que los aumente. Un pipeline de seguridad práctico en 2026 se ve así: análisis de IA durante el desarrollo para verificación continua, seguido de auditorías expertas colaborativas para revisión de diseño, luego auditorías competitivas en Code4rena para amplitud, y finalmente bug bounties post-despliegue para protección continua.
El capital de riesgo está apostando fuertemente en esta convergencia. Según Crunchbase, se invirtieron $18 mil millones en startups de seguridad y privacidad en 2025, un 26% más que en 2024. La financiación en etapa temprana (Series A/B) saltó un 63% a $7.5 mil millones, gran parte impulsada por la convergencia IA-seguridad.
El ecosistema de startups de seguridad IA específicamente recaudó $8.5 mil millones en 175 compañías entre enero de 2024 y diciembre de 2025. Solo el Q4 2025 vio $2.17 mil millones en 28 acuerdos, representando un crecimiento de 8x en financiamiento trimestral en dos años.
California domina con $2.7 mil millones en 62 compañías, más que todos los mercados no estadounidenses combinados. Esta concentración refleja el profundo pool de talento en la intersección de investigación IA y seguridad blockchain.
Para los participantes cotidianos de DeFi, EVMbench señala varios cambios prácticos:
Mejora la calidad de auditoría. Los proyectos que usan auditorías aumentadas con IA detectarán más bugs antes del despliegue. Busca protocolos que mencionen seguridad asistida por IA junto con auditorías tradicionales en su documentación.
Disminuyen los costos. OpenAI afirma que EVMbench puede reducir los tiempos de auditoría hasta en un 80%. Los proyectos más pequeños que anteriormente no podían permitirse auditorías completas pueden obtener acceso a mejores herramientas de seguridad.
Emergen nuevos riesgos. A medida que más desarrolladores usan IA para escribir código de smart contracts, los bugs estilo Moonwell pueden volverse más comunes antes de que el ecosistema desarrolle procesos de revisión adecuados. Presta atención a si los protocolos separan su revisión de código generado por IA del desarrollo estándar.
Mejora la detección, pero lentamente. La tasa de detección del 45.6% para Claude Opus 4.6 significa que la IA aún pierde más de la mitad de las vulnerabilidades críticas durante el descubrimiento. EVMbench es de código abierto y impulsará una iteración rápida, pero los auditores humanos siguen siendo esenciales en el futuro previsible.
Descargo de responsabilidad: Este artículo es solo para fines informativos y no constituye asesoramiento financiero. Las inversiones en criptomonedas conllevan un riesgo significativo. Siempre realiza tu propia investigación y consulta con un asesor financiero calificado antes de tomar decisiones de inversión.
EVMbench es de código abierto y está disponible en GitHub, lo que significa que la comunidad de investigación de IA más amplia ahora puede evaluar y mejorar sus modelos contra vulnerabilidades reales de DeFi. La tasa de explotación del 72% probablemente subirá. La tasa de detección del 45.6% tiene más espacio para crecer.
La verdadera prueba no es si la IA puede igualar a los auditores humanos en patrones de vulnerabilidad conocidos. Es si la IA puede detectar los bugs desconocidos, los nuevos vectores de ataque que no se han visto antes. Hasta que las tasas de detección se acerquen a las tasas de explotación, el modelo híbrido de seguridad humana asistida por IA sigue siendo el estándar de oro.
Para los protocolos DeFi que gestionan miles de millones en fondos de usuarios, el mensaje es claro: las herramientas de seguridad impulsadas por IA ya no son opcionales, pero tampoco lo es la supervisión humana. Los protocolos que combinen ambos definirán la próxima era de seguridad DeFi.
Análisis de mercado y insights accionables. Sin spam, nunca.