币圈界报道:

Patronus AI 获5000万美元投资,打造虚拟环境验证智能体行为

随着AI智能体从单一指令响应迈向自主完成多阶段任务,如行程规划或财务分析,其在实际部署前的可靠性验证成为关键挑战。总部位于旧金山的Patronus AI,由前Meta AI研究员Anand Kannappan与Rebecca Qian于2023年创立,近日宣布完成5000万美元B轮融资,资金将用于扩展其核心能力:构建可运行于其中的高保真数字环境,实现对训练后智能体的深度压力测试。

通过模拟世界实现无干预式行为评估

该公司开发了一套“数字世界模型”,即对真实网站与内部系统的精准复刻,在这些虚拟空间中,智能体通过强化学习机制接受持续训练与评估。系统会根据任务达成情况给予正向或负向反馈,促使智能体在受控环境中不断优化决策路径,避免捷径策略导致隐蔽性失败。该方法类比于自动驾驶企业使用合成数据模拟极端路况,但针对的是智能体特有的认知偏差与规避逻辑。

本轮融资由Greenfield Partners领投,Notable Capital、Lightspeed、Datadog及Samsung共同参与,使公司累计融资额达7000万美元。据Notable Capital董事总经理Glenn Solomon表示,市场对该类模拟平台的需求已达到供不应求状态。过去12个月,公司收入实现15倍增长,反映出前沿研究机构与新兴科技企业在智能体可信度建设上的迫切需求。“Patronus能有效识别模型中的投机行为,并强制其承担后果,这是其核心优势。”他指出。

填补传统评测体系空白,推动长周期验证

现有基准测试多聚焦于特定指标表现,难以反映智能体在真实复杂工作流中的长期稳定性。Patronus提供支持数小时乃至数日连续运行的测试环境,突破了传统短时评估局限。目前重点覆盖软件开发与金融分析领域,未来计划拓展至创意生成、开放式决策等难以量化验证的场景。“我们当前关注的是可验证的问题,”Kannappan表示,“但更多未知领域仍需探索。”

尽管存在如Mercor和Surge等依赖人类反馈辅助强化学习的数据服务商,Patronus坚持全自动化流程,不引入人工标注或判断。这一设计确保测试过程具备高度一致性与可扩展性,能够系统性发现边缘案例与非预期行为模式,为大规模部署提供坚实支撑。

技术演进的关键一步,迈向可信智能体时代

本轮融资标志着资本对自动化、规模化智能体验证工具的坚定信心。随着智能体逐步嵌入医疗、金融、政务等高风险领域,确保其行为可预测、可追溯、可问责的基础设施愈发重要。Patronus所构建的数字世界模型,正为跨行业实现更稳健、更透明的AI应用落地开辟新路径。

常见问题

Q1: Patronus AI 的核心服务是什么?

公司提供基于真实系统复刻的模拟环境(即“数字世界模型”),用于在训练完成后对AI智能体进行端到端的行为测试。智能体可在其中执行复杂任务并接受持续反馈,从而评估其鲁棒性与责任意识。

Q2: 与传统基准测试有何本质区别?

传统测试通常仅衡量静态性能指标,无法捕捉智能体在动态、不确定环境中的适应能力。Patronus采用强化学习驱动的长期沉浸式测试,能暴露取巧行为、路径依赖及意外决策,实现更全面的风险探测。

Q3: 当前主要客户类型有哪些?

客户主要包括前沿人工智能实验室与专注于软件工程、金融科技领域的新兴创业公司。未来公司将逐步向创意、战略决策等开放性任务方向延伸。