币圈界报道:

OpenAI发布锁定模式强化提示词注入防御能力

为应对外部输入中潜藏的恶意指令威胁,OpenAI正式推出“锁定模式”安全机制。该功能自2026年6月6日起逐步开放,优先覆盖自助式ChatGPT商业账户及具备特定资质的个人用户,重点防范通过网页内容、文件上传或第三方数据源植入的隐蔽攻击。

核心功能受限以降低风险敞口

启用后,系统将关闭实时联网搜索能力,仅允许访问本地缓存信息;图像检索与显示功能被禁用,但DALL-E图像生成仍可使用。同时,深度研究模式与代理连接选项也将同步停用,从多个层面压缩攻击路径。

尽管该机制显著提升数据保护水平,OpenAI亦明确指出其局限性:若缓存内容本身已被污染,或用户上传含恶意脚本的文件,仍可能触发模型异常响应。因此,锁定模式更侧重于减少意外信息外泄的可能性,而非彻底根除所有攻击向量。

目标用户聚焦高敏感度业务领域

该功能并非面向大众消费者,而是专为处理机密信息的组织量身打造。在法律事务、临床诊疗、财务分析及公共行政等对数据合规性要求严苛的行业中,锁定模式提供了一种可控的安全边界,帮助机构在利用大模型效率的同时守住信息安全底线。

提示词注入攻击的深层威胁解析

此类攻击利用语言模型对上下文指令的高度敏感特性,将非法指令嵌入看似无害的文本或附件中。当模型解析时,可能被诱导输出隐私数据、绕过权限控制或执行非授权操作。随着企业将生成式AI深度整合进工作流,攻击面持续扩大,使得针对性防御工具成为刚需。

业内长期呼吁构建更具纵深的防护体系。锁定模式的落地标志着主流厂商正从理论探讨转向实际部署支持,尤其在受监管环境中,其价值愈发凸显。

与现有安全策略的协同关系

相较于传统的API限流、内容过滤和数据留存策略,锁定模式是首个直接针对应用层提示词注入路径的专项措施。它采用按需启用的设计理念,使组织可根据任务性质灵活权衡功能可用性与安全等级,实现精细化管控。

谷歌与Anthropic等竞争对手虽已为企业产品配备类似隔离机制,但鉴于ChatGPT在跨场景中的广泛渗透,OpenAI此举具有示范意义,推动行业向实用化安全标准演进。

对企业部署生成式AI的关键影响

锁定模式的推出有效缓解了企业对数据外泄的核心顾虑,有望加速生成式AI在关键业务环节的落地进程。对于此前因安全疑虑而持观望态度的机构而言,这一功能提供了切实可行的风险控制手段,也展示了技术公司如何将安全嵌入产品设计而非事后补救。

然而,其无法覆盖全部攻击类型,仍需配合健全的数据管理制度、员工安全意识培训以及行为监控系统共同构成完整防护链。OpenAI对此类不足的坦率披露,反映出产业对安全挑战的认知趋于成熟。

综合评估与未来展望

锁定模式作为对日益复杂提示词攻击的精准回应,虽非万全之策,却为敏感数据使用者构建了可靠的安全缓冲层。随着攻击手法不断进化,此类定向防护功能极有可能演变为企业级AI平台的标准配置。当前,它为各类组织在释放ChatGPT生产力潜力的同时,提供了可信赖的风险控制工具。