EVMbench: Can AI Agents Secure DeFi Better Than Humans?

2월 18일, OpenAI와 Paradigm은 스마트 컨트랙트 보안 분야에서 AI 에이전트를 평가하기 위한 최초의 오픈소스 벤치마크인 EVMbench를 출시했습니다. 6개월 만에 최고 AI 모델은 치명적인 DeFi 버그의 20%를 악용하는 수준에서 70% 이상으로 성능이 향상되었습니다. 하지만 출시 3일 전, AI가 생성한 코드의 버그로 Moonwell은 178만 달러의 손실을 입었습니다.

이 타이밍은 우연이 아니었습니다. Moonwell 사건과 EVMbench의 출시는 DeFi 보안의 중요한 전환점을 나타냅니다. 2025년 암호화폐 해킹으로 34억 달러가 도난당했고 1,000억 달러 이상이 스마트 컨트랙트에 잠겨 있는 상황에서, 더 이상 AI가 보안에서 역할을 할 것인지에 대한 질문이 아닙니다. 얼마나 빠르게, 그리고 문제가 발생했을 때 어떤 비용이 드는지가 문제입니다.

EVMbench란 무엇인가?

EVMbench는 40개의 전문 보안 감사에서 선별한 120개의 취약점으로 구성된 오픈소스 벤치마크입니다. 대부분은 보안 연구자들이 버그를 찾기 위해 경쟁하는 Code4rena 감사 경연 대회에서 가져왔으며, Paradigm의 Tempo 블록체인 감사에서 가져온 시나리오도 포함되어 있습니다.

벤치마크는 세 가지 구별되는 작업에서 AI 에이전트를 테스트합니다.

탐지

코드에서 취약점 찾기

패치

코드를 손상시키지 않고 버그 수정

악용

샌드박스에서 공격 실행

각 모드는 보안 추론의 다른 측면을 테스트합니다. 탐지는 대규모 코드베이스를 스캔하고 미묘한 결함을 식별해야 합니다. 패치는 코드 뒤에 숨겨진 설계 가정을 이해해야 합니다. 악용은 여러 단계를 연결하여 작동하는 공격을 만들어야 합니다.

수치: EVMbench에서의 AI 성능

헤드라인 결과는 짧은 기간 동안 극적인 발전을 보여줍니다.

모델	악용 모드	패치 모드	탐지 모드
GPT-5.3-Codex	72.2%	41.5%	-
Claude Opus 4.6	-	-	45.6%
GPT-5 (기준선)	31.9%	-	-

프로젝트가 2025년 중반에 시작되었을 때, 최고 모델은 치명적인 Code4rena 버그의 20% 미만을 악용했습니다. GPT-5.3-Codex는 이제 70% 이상을 처리하며, 약 6개월 만에 3.6배 개선되었습니다.

💡

악용 모드는 목표가 명확하기 때문에 AI 에이전트가 가장 잘 수행하는 영역입니다. 자금을 빼내거나 실패 조건을 트리거하는 것입니다. 탐지는 에이전트가 전체 코드베이스를 철저히 스캔하기보다 하나의 문제를 찾은 후 멈추는 경향이 있기 때문에 가장 약한 영역입니다.

작업별 성능 격차는 중요합니다. AI는 알려진 공격 패턴을 실행하는 데 뛰어나지만 발견의 개방적인 특성에는 어려움을 겪습니다. 이는 보안에서 잘 알려진 과제를 반영합니다. 새로운 취약점을 찾는 것은 패턴 인식뿐만 아니라 창의성이 필요합니다.

Moonwell 경고

EVMbench가 출시되기 3일 전, Moonwell은 AI가 생성한 코드의 버그로 178만 달러를 잃었습니다. Claude Opus 4.6이 공동 작성한 결함이 있는 풀 리퀘스트는 원시 cbETH/ETH 교환 비율을 사용했고 ETH/USD 가격 피드를 곱하지 않았습니다. 결과는 cbETH가 약 2,200달러가 아닌 1.12달러로 평가되었습니다.

이것은 복잡한 제로데이 익스플로잇이 아니었습니다. 적절한 감사가 몇 분 안에 잡을 수 있는 간단한 오라클 설정 오류였습니다. 이 사건은 개발자들이 금융 시스템의 프로덕션 코드를 생성하기 위해 AI에 점점 더 의존하는 "바이브 코딩" 시대의 첫 번째 주요 보안 실패가 되었습니다.

⚠️

Moonwell 사건은 중요한 격차를 강조합니다. AI는 다른 사람의 코드에서 버그를 찾는 데 점점 더 나아지고 있지만, AI가 생성한 코드 자체는 여전히 전문가 검토가 필요합니다. 탐지 도구와 생성의 위험은 동전의 양면입니다.

왜 DeFi는 지금 더 나은 보안이 필요한가?

문제의 규모는 엄청납니다. Chainalysis는 2025년 암호화폐 도난으로 34억 달러가 도난당했다고 보고했으며, 2025년 1분기만 16억 4천만 달러를 차지했습니다(주로 15억 달러의 Bybit 해킹으로 인한 것입니다).

OWASP는 업데이트된 2026년 스마트 컨트랙트 상위 10을 발표했으며, 주목할 만한 변경 사항은 다음과 같습니다.

접근 제어는 여전히 최고 위협입니다(2025년 손실 9억 5,320만 달러)
비즈니스 로직 결함이 2위로 상승했습니다(프로토콜 수준 설계 오류)
재진입 공격은 여전히 연간 3,570만 달러의 손실을 유발합니다
오라클 조작은 대출 프로토콜 전반에 걸쳐 지속적인 위협으로 남아 있습니다
프록시 및 업그레이드 가능성 문제가 처음으로 상위 10에 진입했습니다

OWASP 변경 사항은 더 정교한 공격 벡터로의 전환을 반영합니다. 단순한 재진입 버그는 컴파일러가 보호 기능을 추가하면서 감소하고 있지만, 비즈니스 로직 결함과 오라클 조작은 프로토콜이 어떻게 상호 작용하는지 이해해야 하며, 이는 전통적인 정적 분석 도구가 놓치는 것입니다.

전통적인 감사 산업의 대응

기존 보안 회사들은 가만히 있지 않습니다. 5,500개 이상의 감사를 완료한 CertiK는 이제 AI와 형식적 검증을 워크플로에 통합합니다. OpenZeppelin은 AI 기반 Contracts MCP 도구를 출시했습니다. Trail of Bits는 자동화된 취약점 탐지를 위한 Slither, Echidna, Medusa와 같은 오픈소스 도구를 계속 구축하고 있습니다.

보안 전문가들 사이에서 떠오르는 합의는 하이브리드 모델입니다.

✓AI 강점

수천 줄의 코드를 몇 분 안에 처리 알려진 취약점 패턴을 대규모로 식별 감사 시간을 최대 80% 단축 지속적인 모니터링을 위해 연중무휴 이용 가능

✓인간 강점

새로운 공격 벡터 발견 비즈니스 로직과 경제적 인센티브 이해 적대적이거나 맥락에 따른 버그 포착 허용 가능한 위험에 대한 판단

가능성 있는 결과는 AI가 감사자를 대체하는 것이 아니라 증강하는 것입니다. 2026년의 실용적인 보안 파이프라인은 다음과 같습니다. 개발 중 지속적인 검증을 위한 AI 분석, 설계 검토를 위한 협력적 전문가 감사, 폭넓은 검토를 위한 Code4rena의 경쟁 감사, 그리고 배포 후 지속적인 보호를 위한 버그 바운티입니다.

AI 보안 분야에 85억 달러 투자

벤처 캐피탈은 이러한 융합에 크게 투자하고 있습니다. Crunchbase에 따르면, 2025년 보안 및 개인정보 보호 스타트업에 180억 달러가 투자되었으며, 이는 2024년보다 26% 증가한 수치입니다. 초기 단계 자금(시리즈 A/B)은 63% 증가하여 75억 달러에 달했으며, 대부분은 AI-보안 융합으로 인해 발생했습니다.

AI 보안 스타트업 생태계는 2024년 1월부터 2025년 12월까지 175개 회사에서 85억 달러를 조달했습니다. 2025년 4분기만 28개 거래에서 21억 7천만 달러를 기록했으며, 이는 2년 동안 분기별 자금 조달이 8배 증가한 것입니다.

캘리포니아는 62개 회사에서 27억 달러로 지배하고 있으며, 이는 미국 이외의 모든 시장을 합친 것보다 많습니다. 이러한 집중은 AI 연구와 블록체인 보안의 교차점에 있는 깊은 인재 풀을 반영합니다.

DeFi 사용자에게 이것이 의미하는 것

일상적인 DeFi 참여자에게 EVMbench는 몇 가지 실질적인 변화를 나타냅니다.

감사 품질이 향상됩니다. AI 증강 감사를 사용하는 프로젝트는 배포 전에 더 많은 버그를 잡을 것입니다. 문서에서 전통적인 감사와 함께 AI 지원 보안을 언급하는 프로토콜을 찾으십시오.

비용이 감소합니다. OpenAI는 EVMbench가 감사 시간을 최대 80% 줄일 수 있다고 주장합니다. 이전에 포괄적인 감사를 감당할 수 없었던 소규모 프로젝트가 더 나은 보안 도구에 접근할 수 있게 될 것입니다.

새로운 위험이 나타납니다. 더 많은 개발자가 AI를 사용하여 스마트 컨트랙트 코드를 작성함에 따라, 생태계가 적절한 검토 프로세스를 개발하기 전에 Moonwell 스타일 버그가 더 일반화될 수 있습니다. 프로토콜이 AI 생성 코드 검토를 표준 개발과 분리하는지 주의를 기울이십시오.

탐지가 개선되지만 천천히 진행됩니다. Claude Opus 4.6의 45.6% 탐지율은 AI가 발견 중에 여전히 절반 이상의 치명적인 취약점을 놓친다는 것을 의미합니다. EVMbench는 오픈소스이며 빠른 반복을 추진할 것이지만, 인간 감사자는 가까운 미래에 필수적으로 남을 것입니다.

면책 조항: 이 글은 정보 제공 목적으로만 작성되었으며 금융 자문을 구성하지 않습니다. 암호화폐 투자는 상당한 위험을 수반합니다. 투자 결정을 내리기 전에 항상 자체 조사를 수행하고 자격을 갖춘 금융 자문가와 상담하십시오.

앞으로의 길

EVMbench는 오픈소스이며 GitHub에서 이용할 수 있으므로, 더 넓은 AI 연구 커뮤니티가 이제 실제 DeFi 취약점에 대해 모델을 벤치마킹하고 개선할 수 있습니다. 72% 악용율은 계속 상승할 것입니다. 45.6% 탐지율은 더 성장할 여지가 있습니다.

진짜 테스트는 AI가 알려진 취약점 패턴에서 인간 감사자와 일치할 수 있는지가 아닙니다. AI가 이전에 보지 못한 알려지지 않은 버그, 새로운 공격 벡터를 잡을 수 있는지입니다. 탐지율이 악용율에 접근할 때까지, AI 지원 인간 보안의 하이브리드 모델이 골드 스탠다드로 남을 것입니다.

수십억의 사용자 자금을 관리하는 DeFi 프로토콜에게 메시지는 명확합니다. AI 기반 보안 도구는 더 이상 선택 사항이 아니지만, 인간 감독도 마찬가지입니다. 두 가지를 결합하는 프로토콜이 DeFi 보안의 다음 시대를 정의할 것입니다.

EVMbench란 무엇인가?

벤치마크는 세 가지 구별되는 작업에서 AI 에이전트를 테스트합니다.

탐지

코드에서 취약점 찾기

패치

코드를 손상시키지 않고 버그 수정

악용

샌드박스에서 공격 실행

수치: EVMbench에서의 AI 성능

헤드라인 결과는 짧은 기간 동안 극적인 발전을 보여줍니다.

모델	악용 모드	패치 모드	탐지 모드
GPT-5.3-Codex	72.2%	41.5%	-
Claude Opus 4.6	-	-	45.6%
GPT-5 (기준선)	31.9%	-	-

💡

Moonwell 경고

⚠️

왜 DeFi는 지금 더 나은 보안이 필요한가?

OWASP는 업데이트된 2026년 스마트 컨트랙트 상위 10을 발표했으며, 주목할 만한 변경 사항은 다음과 같습니다.

접근 제어는 여전히 최고 위협입니다(2025년 손실 9억 5,320만 달러)
비즈니스 로직 결함이 2위로 상승했습니다(프로토콜 수준 설계 오류)
재진입 공격은 여전히 연간 3,570만 달러의 손실을 유발합니다
오라클 조작은 대출 프로토콜 전반에 걸쳐 지속적인 위협으로 남아 있습니다
프록시 및 업그레이드 가능성 문제가 처음으로 상위 10에 진입했습니다

전통적인 감사 산업의 대응

보안 전문가들 사이에서 떠오르는 합의는 하이브리드 모델입니다.

✓AI 강점

수천 줄의 코드를 몇 분 안에 처리 알려진 취약점 패턴을 대규모로 식별 감사 시간을 최대 80% 단축 지속적인 모니터링을 위해 연중무휴 이용 가능

✓인간 강점

새로운 공격 벡터 발견 비즈니스 로직과 경제적 인센티브 이해 적대적이거나 맥락에 따른 버그 포착 허용 가능한 위험에 대한 판단

AI 보안 분야에 85억 달러 투자

DeFi 사용자에게 이것이 의미하는 것

일상적인 DeFi 참여자에게 EVMbench는 몇 가지 실질적인 변화를 나타냅니다.

면책 조항: 이 글은 정보 제공 목적으로만 작성되었으며 금융 자문을 구성하지 않습니다. 암호화폐 투자는 상당한 위험을 수반합니다. 투자 결정을 내리기 전에 항상 자체 조사를 수행하고 자격을 갖춘 금융 자문가와 상담하십시오.

EVMbench: AI 에이전트가 사람보다 DeFi를 더 안전하게 보호할 수 있을까?

EVMbench란 무엇인가?

수치: EVMbench에서의 AI 성능

Moonwell 경고

왜 DeFi는 지금 더 나은 보안이 필요한가?

전통적인 감사 산업의 대응

AI 보안 분야에 85억 달러 투자

DeFi 사용자에게 이것이 의미하는 것

앞으로의 길

태그

주간 크립토 인사이트

EVMbench: AI 에이전트가 사람보다 DeFi를 더 안전하게 보호할 수 있을까?

EVMbench란 무엇인가?

수치: EVMbench에서의 AI 성능

Moonwell 경고

왜 DeFi는 지금 더 나은 보안이 필요한가?

전통적인 감사 산업의 대응

AI 보안 분야에 85억 달러 투자

DeFi 사용자에게 이것이 의미하는 것

앞으로의 길

태그

주간 크립토 인사이트