摘要:OpenZeppelin在审核OpenAI与Paradigm合作推出的EVMbench基准测试时,发现其存在方法学缺陷与数据污染问题。多个被标记为高危的漏洞实际无法利用,且高分AI模型可能已预先接触过测试数据,削弱评估有效性。强调需以严格标准构建可信的AI安全评估体系。

EVMbench基准测试引发安全审核关注
OpenZeppelin表示,在对OpenAI与加密投资公司Paradigm联合推出的EVMbench基准测试进行审查时,识别出关键方法论缺陷与数据污染问题。该基准旨在衡量人工智能模型在识别、修补及利用智能合约漏洞方面的能力。尽管支持推动AI与区块链安全融合的尝试,但OpenZeppelin决定以同等严格标准对其实施全面审核,其标准曾用于评估Aave、Lido和Uniswap等主流协议的安全性。核心问题:训练数据污染与无效漏洞分类
审核结果显示,数据集存在两大严重问题:一是训练数据污染,二是高危漏洞的错误分类。经分析确认,至少四个被列为高危的漏洞在真实环境中无法被触发或利用。这表明基准测试所依赖的漏洞定义与实际可执行性之间存在显著偏差,影响了评估结果的可靠性。数据污染削弱测试真实性
OpenZeppelin指出,真正体现AI安全能力的核心在于发现未曾接触过的新型漏洞。然而,EVMbench使用的120个审计案例来自2024年至2025年中期间,而多数主流AI模型的训练数据截止时间恰好也在此阶段。这意味着高分模型极有可能已在预训练阶段掌握测试中的漏洞信息。尽管测试过程中切断网络访问以防止搜索行为,但模型记忆库中已存在的知识仍可能直接提供答案,导致测试结果不能真实反映模型的自主发现能力。 此外,数据集规模有限,进一步放大了数据污染的影响,使评估范围受限,难以全面衡量模型的真实潜力。漏洞分类存在根本性错误
更严重的是,部分被归类为“高危”的漏洞在技术上无法实现。经验证,至少有四项漏洞描述中包含逻辑或执行层面的不可行性,即便模型能“发现”这些漏洞,也无法构成有效攻击路径。但基准测试仍对这类“发现”给予评分,反映出其分类机制缺乏技术严谨性,而非主观判断差异。构建可信AI安全评估体系的必要性
OpenZeppelin强调,人工智能将深刻改变智能合约安全格局,但前提是必须建立在真实、可靠且无偏倚的评估基础之上。当前挑战不在于AI是否能提升安全性——其潜力已然显现——而在于我们所使用的数据集、测试框架与评估标准,是否与现实世界中的智能合约安全要求保持一致。唯有如此,才能确保未来工具真正服务于去中心化系统的长期稳定与可信运行。声明:本站所有文章内容,均为采集网络资源,不代表本站观点及立场,不构成任何投资建议!如若内容侵犯了原著者的合法权益,可联系本站删除。
