
长期以来,加密圈与AI的结合常被认为是单向的热情。然而,在近期加密市场低迷之际,OpenAI推出的EVMbench却引发了广泛关注。

EVMbench是什么?
首先,EVM指的是以太坊虚拟机(Ethereum Virtual Machine),它是以太坊及其兼容链运行智能合约的核心环境。而此次OpenAI发布的EVMbench并非一条新链或以太坊升级,而是一款专为AI设计的测试工具。

这款工具的背后开发者阵容强大,除了OpenAI外,还包括知名加密基金Paradigm以及Web3安全审计公司OtterSec。目前,EVMbench以论文形式发布,本文将对其进行详细解读。

对于熟悉区块链的朋友来说,智能合约领域犹如“黑暗森林”,黑客不断扫描潜在漏洞,一旦被利用便可能导致巨额损失。因此,许多项目方选择支付高额费用进行代码安全审计。
然而,OpenAI认为,区块链环境非常适合用作AI的评测场景,因为所有数据和信息都可以在链上查询和验证。

为此,团队从真实的DeFi环境中选取了数百个项目作为测试样本。这些项目平均包含一两千行代码,并涉及多个智能合约。

EVMbench(Bench意为审判席)的任务是让主流AI模型(如GPT、Gemini、Claude)完成以下三项任务:
发现漏洞(Detect)
修复漏洞(Patch)
攻击合约偷钱(Exploit)
通过评分来评估各模型的表现。
审计能力平平,攻击能力惊人
最终研究结果显示,AI在发现和修复漏洞方面的表现较为一般,但在利用漏洞攻击合约方面却表现出色。

在已知合约问题的情况下,AI仅能发现或修复不到一半的漏洞,表现仅相当于一名普通水平的“代码审计师”。
然而,当AI扮演“黑客”角色时,其成功攻击并窃取资金的概率高达70%以上!

此外,无论是担任“链上黑客”还是“审计员”,只要提供足够的算力(即增加AI输出token数量),AI的表现都会显著提升。
各AI模型表现对比
那么,究竟哪个AI模型表现最出色呢?
从图表中可以看出,在检测漏洞方面,Claude Opus 4.6表现最佳,它发现的漏洞按真实审计奖励计算可获得约3.8万美元。

而在修复漏洞和攻击合约方面,OpenAI自家的GPT 5.3-Codex表现最为突出(毕竟是自家论文,不能输呀)。

更令人惊讶的是,如果AI工程师给予一定提示,AI在审计和攻击方面的成功率均可达到90%以上!
总结
简单来说,未来的链上DeFi领域或许真的会成为AI的天下。无论是代码审计师还是黑客,都可能面临失业的风险……

声明:本站所有文章内容,均为采集网络资源,不代表本站观点及立场,不构成任何投资建议!如若内容侵犯了原著者的合法权益,可联系本站删除。
