EVMbench: Can AI Agents Secure DeFi Better Than Humans?

Vào ngày 18 tháng 2, OpenAI và Paradigm đã ra mắt EVMbench, bộ tiêu chuẩn mã nguồn mở đầu tiên để đánh giá các tác nhân AI về bảo mật hợp đồng thông minh. Trong sáu tháng, các mô hình AI hàng đầu đã tiến từ việc khai thác 20% lỗi DeFi nghiêm trọng lên hơn 70%. Nhưng chỉ ba ngày trước khi ra mắt, một lỗi mã do AI tạo ra đã khiến Moonwell mất 1,78 triệu đô la.

Thời điểm đó không phải là ngẫu nhiên. Sự cố Moonwell và việc phát hành EVMbench đánh dấu một điểm chuyển giao quan trọng cho bảo mật DeFi. Với 3,4 tỷ đô la bị đánh cắp trong các vụ hack tiền điện tử trong năm 2025 và hơn 100 tỷ đô la bị khóa trong hợp đồng thông minh, câu hỏi không còn là liệu AI có đóng vai trò trong bảo mật hay không. Mà là nhanh như thế nào, và với chi phí gì khi mọi thứ đi sai.

EVMbench Là Gì?

EVMbench là một bộ tiêu chuẩn mã nguồn mở được xây dựng từ 120 lỗ hổng được tuyển chọn trên 40 cuộc kiểm toán bảo mật chuyên nghiệp. Hầu hết những lỗ hổng này đến từ các cuộc thi kiểm toán Code4rena, nơi các nhà nghiên cứu bảo mật cạnh tranh để tìm lỗi, cùng với một số kịch bản từ kiểm toán blockchain Tempo của Paradigm.

Bộ tiêu chuẩn này kiểm tra các tác nhân AI trên ba nhiệm vụ riêng biệt:

Detect

Tìm lỗ hổng trong mã

Patch

Sửa lỗi mà không làm hỏng mã

Exploit

Thực hiện tấn công trong môi trường sandbox

Mỗi chế độ thử thách một khía cạnh khác nhau của lý luận bảo mật. Phát hiện yêu cầu quét các cơ sở mã lớn và xác định các lỗi tinh vi. Vá lỗi đòi hỏi hiểu các giả định thiết kế đằng sau mã. Khai thác yêu cầu kết nối nhiều bước thành một cuộc tấn công hoạt động.

Con Số: Hiệu Suất AI Trên EVMbench

Kết quả tiêu đề cho thấy tiến bộ đáng kể trong một khoảng thời gian ngắn:

Mô hình	Chế độ Exploit	Chế độ Patch	Chế độ Detect
GPT-5.3-Codex	72.2%	41.5%	-
Claude Opus 4.6	-	-	45.6%
GPT-5 (cơ sở)	31.9%	-	-

Khi dự án bắt đầu vào giữa năm 2025, các mô hình hàng đầu khai thác được ít hơn 20% lỗi Code4rena nghiêm trọng. GPT-5.3-Codex hiện xử lý được hơn 70%, cải thiện gấp 3,6 lần trong khoảng sáu tháng.

💡

Chế độ khai thác là nơi các tác nhân AI hoạt động tốt nhất vì mục tiêu rõ ràng: rút cạn tiền hoặc kích hoạt điều kiện thất bại. Phát hiện vẫn là lĩnh vực yếu nhất vì các tác nhân có xu hướng dừng lại sau khi tìm thấy một vấn đề thay vì quét toàn diện toàn bộ cơ sở mã.

Khoảng cách hiệu suất theo nhiệm vụ cụ thể rất quan trọng. AI xuất sắc trong việc thực hiện các mẫu tấn công đã biết nhưng gặp khó khăn với bản chất cởi mở của khám phá. Điều này phản ánh một thách thức nổi tiếng trong bảo mật: tìm các lỗ hổng mới đòi hỏi sáng tạo, không chỉ nhận dạng mẫu.

Hồi Chuông Cảnh Báo Từ Moonwell

Ba ngày trước khi EVMbench ra mắt, Moonwell đã mất 1,78 triệu đô la do một lỗi trong mã do AI tạo ra. Yêu cầu pull có lỗi, được đồng tác giả bởi Claude Opus 4.6, đã sử dụng tỷ giá trao đổi cbETH/ETH thô thay vì nhân nó với nguồn cấp giá ETH/USD. Kết quả: cbETH được định giá ở mức 1,12 đô la thay vì khoảng 2.200 đô la.

Đây không phải là một lỗ hổng zero-day phức tạp. Đó là một cấu hình oracle sai đơn giản, chính xác loại lỗi mà một cuộc kiểm toán đúng cách sẽ phát hiện trong vài phút. Sự cố này trở thành lỗi bảo mật lớn đầu tiên của kỷ nguyên "vibe coding", nơi các nhà phát triển ngày càng dựa vào AI để tạo mã sản xuất cho các hệ thống tài chính.

⚠️

Sự cố Moonwell làm nổi bật một khoảng trống quan trọng: AI đang trở nên tốt hơn trong việc tìm lỗi trong mã của người khác, nhưng bản thân mã do AI tạo ra vẫn cần được chuyên gia xem xét. Các công cụ phát hiện và rủi ro tạo ra là hai mặt của cùng một đồng tiền.

Tại Sao DeFi Cần Bảo Mật Tốt Hơn Ngay Bây Giờ

Quy mô của vấn đề là đáng kinh ngạc. Chainalysis báo cáo 3,4 tỷ đô la bị đánh cắp trong vụ trộm tiền điện tử trong năm 2025, chỉ riêng quý 1 năm 2025 đã chiếm 1,64 tỷ đô la (chủ yếu do vụ hack Bybit trị giá 1,5 tỷ đô la).

OWASP đã phát hành bản cập nhật Smart Contract Top 10 cho năm 2026, với những thay đổi đáng chú ý:

Kiểm Soát Truy Cập vẫn là mối đe dọa hàng đầu (tổn thất 953,2 triệu đô la trong năm 2025)
Lỗi Logic Kinh Doanh được nâng lên vị trí thứ 2 (lỗi thiết kế cấp độ giao thức)
Tấn Công Reentrancy vẫn gây ra tổn thất 35,7 triệu đô la hàng năm
Thao Túng Oracle vẫn là mối đe dọa dai dẳng trên các giao thức cho vay
Vấn Đề Proxy và Nâng Cấp lần đầu tiên lọt vào top 10

Những thay đổi của OWASP phản ánh sự chuyển dịch sang các vectơ tấn công phức tạp hơn. Lỗi reentrancy đơn giản đang giảm khi trình biên dịch thêm bảo vệ, nhưng lỗi logic kinh doanh và thao túng oracle đòi hỏi hiểu cách các giao thức tương tác, điều mà các công cụ phân tích tĩnh truyền thống bỏ sót.

Ngành Kiểm Toán Truyền Thống Phản Ứng

Các công ty bảo mật đã thành lập không đứng yên. CertiK, đã hoàn thành hơn 5.500 cuộc kiểm toán, hiện tích hợp AI và xác minh chính thức vào quy trình làm việc của mình. OpenZeppelin đã ra mắt công cụ Contracts MCP hỗ trợ AI. Trail of Bits tiếp tục xây dựng các công cụ mã nguồn mở như Slither, Echidna và Medusa để phát hiện lỗ hổng tự động.

Sự đồng thuận xuất hiện trong các chuyên gia bảo mật là một mô hình kết hợp:

✓Điểm Mạnh Của AI

Xử lý hàng nghìn dòng mã trong vài phút Xác định các mẫu lỗ hổng đã biết ở quy mô lớn Giảm thời gian kiểm toán lên đến 80% Có sẵn 24/7 để giám sát liên tục

✓Điểm Mạnh Của Con Người

Khám phá các vectơ tấn công mới Hiểu logic kinh doanh và động lực kinh tế Phát hiện lỗi đối nghịch hoặc phụ thuộc ngữ cảnh Đưa ra quyết định về rủi ro có thể chấp nhận

Kết quả có khả năng xảy ra không phải là AI thay thế kiểm toán viên mà là AI bổ sung cho họ. Một quy trình bảo mật thực tế vào năm 2026 trông như thế này: phân tích AI trong quá trình phát triển để xác minh liên tục, tiếp theo là kiểm toán chuyên gia hợp tác để xem xét thiết kế, sau đó kiểm toán cạnh tranh trên Code4rena để có độ bao phủ rộng, và cuối cùng là tiền thưởng lỗi sau triển khai để bảo vệ liên tục.

8,5 Tỷ Đô La Đầu Tư Vào Bảo Mật AI

Vốn đầu tư mạo hiểm đang đặt cược mạnh vào sự hội tụ này. Theo Crunchbase, 18 tỷ đô la đã được đầu tư vào các startup bảo mật và quyền riêng tư trong năm 2025, tăng 26% so với năm 2024. Tài trợ giai đoạn đầu (Series A/B) tăng vọt 63% lên 7,5 tỷ đô la, phần lớn được thúc đẩy bởi sự hội tụ AI-bảo mật.

Hệ sinh thái startup bảo mật AI cụ thể đã huy động được 8,5 tỷ đô la trên 175 công ty từ tháng 1 năm 2024 đến tháng 12 năm 2025. Chỉ riêng quý 4 năm 2025 đã chứng kiến 2,17 tỷ đô la trên 28 thương vụ, đại diện cho mức tăng trưởng 8 lần trong tài trợ hàng quý trong hai năm.

California thống trị với 2,7 tỷ đô la trên 62 công ty, nhiều hơn tất cả các thị trường ngoài Mỹ cộng lại. Sự tập trung này phản ánh nguồn nhân tài sâu rộng tại điểm giao nhau của nghiên cứu AI và bảo mật blockchain.

Điều Này Có Ý Nghĩa Gì Đối Với Người Dùng DeFi

Đối với những người tham gia DeFi hàng ngày, EVMbench báo hiệu một số thay đổi thực tế:

Chất lượng kiểm toán được cải thiện. Các dự án sử dụng kiểm toán được hỗ trợ bởi AI sẽ phát hiện nhiều lỗi hơn trước khi triển khai. Tìm kiếm các giao thức đề cập đến bảo mật hỗ trợ AI bên cạnh kiểm toán truyền thống trong tài liệu của họ.

Chi phí giảm. OpenAI tuyên bố EVMbench có thể giảm thời gian kiểm toán lên đến 80%. Các dự án nhỏ hơn trước đây không đủ khả năng chi trả cho kiểm toán toàn diện có thể tiếp cận với công cụ bảo mật tốt hơn.

Rủi ro mới xuất hiện. Khi nhiều nhà phát triển sử dụng AI để viết mã hợp đồng thông minh, các lỗi kiểu Moonwell có thể trở nên phổ biến hơn trước khi hệ sinh thái phát triển quy trình xem xét phù hợp. Hãy chú ý xem liệu các giao thức có tách riêng xem xét mã do AI tạo ra khỏi quá trình phát triển tiêu chuẩn hay không.

Phát hiện được cải thiện, nhưng chậm. Tỷ lệ phát hiện 45,6% cho Claude Opus 4.6 có nghĩa là AI vẫn bỏ lỡ hơn một nửa các lỗ hổng nghiêm trọng trong quá trình khám phá. EVMbench là mã nguồn mở và sẽ thúc đẩy lặp đi lặp lại nhanh chóng, nhưng kiểm toán viên con người vẫn thiết yếu trong tương lai gần.

Tuyên bố từ chối trách nhiệm: Bài viết này chỉ nhằm mục đích cung cấp thông tin và không cấu thành lời khuyên tài chính. Đầu tư tiền điện tử mang rủi ro đáng kể. Luôn tự nghiên cứu và tham khảo ý kiến cố vấn tài chính có trình độ trước khi đưa ra quyết định đầu tư.

Con Đường Phía Trước

EVMbench là mã nguồn mở và có sẵn trên GitHub, có nghĩa là cộng đồng nghiên cứu AI rộng lớn hơn giờ đây có thể đánh giá và cải thiện các mô hình của họ đối với các lỗ hổng DeFi thực tế. Tỷ lệ khai thác 72% có khả năng tăng lên. Tỷ lệ phát hiện 45,6% có nhiều chỗ để phát triển hơn.

Thử nghiệm thực sự không phải là liệu AI có thể sánh ngang với kiểm toán viên con người về các mẫu lỗ hổng đã biết hay không. Mà là liệu AI có thể phát hiện các lỗi chưa biết, các vectơ tấn công mới chưa từng thấy trước đây hay không. Cho đến khi tỷ lệ phát hiện tiếp cận tỷ lệ khai thác, mô hình kết hợp bảo mật con người được hỗ trợ bởi AI vẫn là tiêu chuẩn vàng.

Đối với các giao thức DeFi quản lý hàng tỷ tiền của người dùng, thông điệp rõ ràng: công cụ bảo mật hỗ trợ AI không còn là tùy chọn, nhưng giám sát của con người cũng vậy. Các giao thức kết hợp cả hai sẽ định hình kỷ nguyên tiếp theo của bảo mật DeFi.

EVMbench Là Gì?

Bộ tiêu chuẩn này kiểm tra các tác nhân AI trên ba nhiệm vụ riêng biệt:

Detect

Tìm lỗ hổng trong mã

Patch

Sửa lỗi mà không làm hỏng mã

Exploit

Thực hiện tấn công trong môi trường sandbox

Con Số: Hiệu Suất AI Trên EVMbench

Kết quả tiêu đề cho thấy tiến bộ đáng kể trong một khoảng thời gian ngắn:

Mô hình	Chế độ Exploit	Chế độ Patch	Chế độ Detect
GPT-5.3-Codex	72.2%	41.5%	-
Claude Opus 4.6	-	-	45.6%
GPT-5 (cơ sở)	31.9%	-	-

💡

Hồi Chuông Cảnh Báo Từ Moonwell

⚠️

Tại Sao DeFi Cần Bảo Mật Tốt Hơn Ngay Bây Giờ

OWASP đã phát hành bản cập nhật Smart Contract Top 10 cho năm 2026, với những thay đổi đáng chú ý:

Kiểm Soát Truy Cập vẫn là mối đe dọa hàng đầu (tổn thất 953,2 triệu đô la trong năm 2025)
Lỗi Logic Kinh Doanh được nâng lên vị trí thứ 2 (lỗi thiết kế cấp độ giao thức)
Tấn Công Reentrancy vẫn gây ra tổn thất 35,7 triệu đô la hàng năm
Thao Túng Oracle vẫn là mối đe dọa dai dẳng trên các giao thức cho vay
Vấn Đề Proxy và Nâng Cấp lần đầu tiên lọt vào top 10

Ngành Kiểm Toán Truyền Thống Phản Ứng

Sự đồng thuận xuất hiện trong các chuyên gia bảo mật là một mô hình kết hợp:

✓Điểm Mạnh Của AI

✓Điểm Mạnh Của Con Người

8,5 Tỷ Đô La Đầu Tư Vào Bảo Mật AI

Điều Này Có Ý Nghĩa Gì Đối Với Người Dùng DeFi

Đối với những người tham gia DeFi hàng ngày, EVMbench báo hiệu một số thay đổi thực tế:

Tuyên bố từ chối trách nhiệm: Bài viết này chỉ nhằm mục đích cung cấp thông tin và không cấu thành lời khuyên tài chính. Đầu tư tiền điện tử mang rủi ro đáng kể. Luôn tự nghiên cứu và tham khảo ý kiến cố vấn tài chính có trình độ trước khi đưa ra quyết định đầu tư.

EVMbench: Liệu AI Có Thể Bảo Mật DeFi Tốt Hơn Con Người?

EVMbench Là Gì?

Con Số: Hiệu Suất AI Trên EVMbench

Hồi Chuông Cảnh Báo Từ Moonwell

Tại Sao DeFi Cần Bảo Mật Tốt Hơn Ngay Bây Giờ

Ngành Kiểm Toán Truyền Thống Phản Ứng

8,5 Tỷ Đô La Đầu Tư Vào Bảo Mật AI

Điều Này Có Ý Nghĩa Gì Đối Với Người Dùng DeFi

Con Đường Phía Trước

Tags

Phân Tích Crypto Hàng Tuần

EVMbench: Liệu AI Có Thể Bảo Mật DeFi Tốt Hơn Con Người?

EVMbench Là Gì?

Con Số: Hiệu Suất AI Trên EVMbench

Hồi Chuông Cảnh Báo Từ Moonwell

Tại Sao DeFi Cần Bảo Mật Tốt Hơn Ngay Bây Giờ

Ngành Kiểm Toán Truyền Thống Phản Ứng

8,5 Tỷ Đô La Đầu Tư Vào Bảo Mật AI

Điều Này Có Ý Nghĩa Gì Đối Với Người Dùng DeFi

Con Đường Phía Trước

Tags

Phân Tích Crypto Hàng Tuần