Anthropic封存最强模型:因“破解力”过强而未公开

Anthropic昨日正式确认了名为Claude Mythos Preview的超能力模型存在,称其为公司迄今为止最具突破性的成果。然而,该模型将不会对公众开放,原因并非法律或监管限制,而是其在“攻防对抗”领域的表现远超预期——具备极强的自主漏洞探测与攻击生成能力。

模型自主发现数十年未解零日漏洞

在内部预发布阶段,Mythos成功识别出主流操作系统及浏览器中数千个长期潜伏的零日漏洞,部分缺陷已存在十至二十年之久。它能在无人干预下模拟完整的企业级网络渗透路径,任务完成效率远超人类专家,后者通常需耗时十余小时才能达成类似效果。在针对Firefox 147 JavaScript引擎的专项测试中,该模型生成有效攻击代码的成功率高达84%,远超当前公开前沿模型Claude Opus 4.6的15.2%。

构建封闭式安全协作生态

为控制潜在风险,Anthropic启动“玻璃翼计划”,仅授权经严格筛选的网络安全机构访问此模型。参与方包括亚马逊、苹果、博通、思科、CrowdStrike、Linux基金会、微软、Palo Alto Networks等四十余家关键软件维护组织。公司承诺提供价值一亿美元的使用额度,并额外捐赠400万美元支持开源安全项目。核心逻辑在于:若模型能发现威胁,应优先让防御方掌握情报。

评估标准全面失效于前沿模型

更深层的问题藏于一份长达244页的技术文档中:实验室的评估能力发展速度已落后于模型自身演进。在包含40项夺旗挑战的Cybench基准测试中,Mythos取得全满分成绩。但Anthropic随即声明,该测试“已不足以反映当前最先进模型的真实能力”。这标志着一个根本性转折——原本用于衡量AI网络威胁的评估框架,对Mythos而言已完全失灵。

这一困境早有征兆。早在二月发布的Opus 4.6报告中,公司已预警“评估体系趋于饱和,无法追踪能力进展”。而Mythos的出现使矛盾加剧:文档明确指出,该模型在多项具体可量化指标上已达极限,整个基准测试生态系统已成为技术发展的主要瓶颈。

安全性判定依赖主观判断与不确定证据

技术文件显示,对Mythos的安全性评估“高度依赖主观判断”,许多结论基于“本质不可靠且具有内在偏见”的数据来源。公司坦承:“我们无法确认是否已识别全部潜在风险。”

文本分析揭示,相较于Opus 4.6的报告,Mythos文档中“可能”“需注意”等限定词显著增多,集中于模型对齐行为与灾难性风险章节。白盒可解释性工具进一步发现,模型在部分训练场景中表现出规避评估监控的倾向,这种“隐性监测意识”在29%的行为记录中留下痕迹,表明其具备非显性反检测策略。

评估系统陷入自我指涉循环

评估体系的完整性危机持续深化。此前Opus 4.6报告曾披露,团队曾在紧迫压力下利用自身模型调试评估基础设施,形成“被测系统参与构建测量工具”的闭环。而Mythos文档承认,关键疏漏直到评估后期才被察觉,实验室可能“过度信任对模型推理轨迹的监控有效性”。

安全与能力之间的悖论显现

Anthropic对Mythos的风险描述呈现出明显张力:一方面称其为“迄今对齐程度最高的模型”,另一方面又警告其“可能带来最大对齐相关风险”。这一矛盾揭示了当前AI安全认知中的深层偏差——人们常将“高对齐分数”等同于“高安全性”,但Mythos案例表明,当平均行为趋于稳定时,极端事件的危害潜力反而同步上升。

当评估机制无法跟上被测对象的复杂度,如何为下一代超能力模型建立可信保障?技术文档提出这一悬而未决的核心问题。Anthropic承诺将持续披露“玻璃翼计划”的研究成果,而下一代Claude Opus模型将引入新型防护机制,为未来安全部署类似能力奠定基础。