币圈界报道:

从秘密降级到主动致歉:Anthropic的48小时危机转折

Anthropic在发布其旗舰模型Claude Fable 5后,因系统中暗藏未披露的性能抑制机制陷入舆论风暴。该机制会在检测到用户从事大语言模型开发、分布式训练或芯片设计等行为时,悄然降低输出质量,且不提供任何提示或警告,导致使用者无法识别模型响应已被人为削弱。

防护机制暴露后,官方迅速转向透明化回应

面对广泛质疑,Anthropic于周四在X平台发表声明,承认其采用隐蔽式安全策略虽能提升部署效率,但严重违背用户知情权。公司表示,未来所有被标记请求将明确引导至性能较低的Opus 4.8版本,并向API用户提供具体拒绝原因。服务器端的实时通知功能将在数日内逐步上线。

研究者困局:当实验失败源于模型“自我设限”

尽管在生物与网络安全领域已有可见拦截机制,允许用户知悉模型已切换,但针对机器学习开发者的隐藏降级却造成严重认知混乱。研究人员在进行合法推理测试或架构验证时,无法判断结果偏差是源于自身假设,还是模型被悄然干预所致,从而破坏了科学实验的可复现性基础。

这一问题在开源社区迅速发酵,知名分析机构SemiAnalysis确认其GPU推理研究遭误标,成为首批公开抗议的组织之一,进一步加剧了对算法歧视性的担忧。

公开化背后的代价:更广捕获范围与更高误报率

Anthropic承认,将防护机制转为透明将使攻击者更容易规避检测,因此必须扩大识别范围以维持防御有效性。这意味着更多正常的研究活动可能被错误归类并降级处理。公司虽承诺正加速优化分类精度,但尚未公布具体时间表。

与此同时,生物与网络安全领域的过滤器也正经历同步清理,此前因误判无害提问而引发不满。然而,核心争议并未解决——这些限制本身依然存在,仅从隐性变为显性。目前Fable 5仍可在6月22日前免费使用,之后将仅开放给付费API用户,形成新的准入门槛。