币圈界报道:

四家科技巨头披露标准不一,安全评估面临困局

Anthropic、OpenAI、谷歌与Meta在2026年陆续发布提示词注入风险评估报告,然而6月1日的横向对比显示,各机构采用的测试条件、攻击类型及成功率定义存在明显分歧。这种评估体系的碎片化使企业安全团队无法建立可比性的风险基准。

测试方法论差异导致结果不可直接对照

研究分析揭示,Anthropic在其浏览器代理测试中发现31%的场景遭遇指令劫持,而其余三家实验室则侧重于工具调用中的间接注入或文档摘要任务中的潜在越权行为。各报告未采纳统一的对抗测试基准,也未设定一致的风险衡量指标。

同一模型在某实验室被判定为低风险,在另一套测试逻辑下可能暴露严重漏洞,这使得企业在选型时难以依赖公开数据做出准确判断。

自治代理兴起催生新型安全挑战

随着AI代理逐步具备自主发送邮件、编写代码与调用外部接口的能力,提示词注入已从单纯对话干扰演变为可引发系统性失控的威胁。攻击者可通过隐蔽指令诱导代理执行非预期操作。

2025年多起文档处理代理事件表明,尽管未造成大规模泄露,但已暴露出关键流程中的脆弱点。由此催生了对标准化披露机制的迫切需求,但目前尚无监管强制要求统一报告格式。

当前四份报告体现的是实验室层面的自愿透明,其现状与早期软件漏洞披露前的无序状态高度相似,亟需行业协同建立规范。

安全团队应以方法论为核心进行评估

报告建议安全人员不应仅关注表面注入率,而应深入审查各实验室的测试设计、攻击向量设定与验证方式。在高敏感业务流程中部署前,必须获取供应商完整的测试白皮书。

目前尚未有监管机构将统一披露框架列入议程。在行业组织或政策推动前,评估标准分化现象将持续影响企业决策效率与整体安全性。