摘要:OpenAI发布新一代GPT-5.5模型,聚焦智能体应用,实现跨任务自主执行与性能飞跃。在编码、知识工作与信息检索中表现领先,专业版用户率先接入,定价策略引发行业关注。

币圈界报道:
OpenAI推出GPT-5.5:迈向自主智能体的新纪元
OpenAI于周四正式发布GPT-5.5模型,定位为专为智能体计算场景打造的下一代人工智能系统。该模型具备独立编写与调试程序、自动浏览网页、处理电子表格及执行多阶段复杂任务的能力,可在无需人工逐步干预的情况下完成持续性作业。
智能体能力跃升,推理与行动同步增强
OpenAI在官方声明中指出:“我们正式推出迄今为止最具智能性与直觉性的GPT-5.5,标志着计算机工作模式进入全新阶段。其在智能编程、系统操作、知识型劳动以及初级科研任务中的表现尤为卓越——这些领域高度依赖上下文关联理解与连续决策能力。”
此次升级的核心在于:在保持与GPT-5.4相同单令牌响应延迟的前提下,全面超越前代模型的各项基准表现。这种在不牺牲速度的前提下实现性能跃迁的案例,在大型语言模型演进过程中极为罕见——通常规模扩大将导致同等硬件下的运行效率下降。
专业场景测试结果亮眼
在评估模型处理复杂命令行工作流的Terminal-Bench 2.0基准测试中,GPT-5.5取得82.7%的准确率,显著领先于Claude Opus 4.7(69.4%)和Gemini 3.1 Pro(68.5%)。在覆盖金融分析、法律研究与产品管理等44个真实职业领域的知识工作评测集GDPval中,该模型在84.9%的对比项中达到或超过人类专业人士水平。
代码能力方面亦表现突出:在预估需20小时完成的长周期编码任务基准Expert-SWE中,其表现优于GPT-5.4;在实际GitHub问题修复的SWE-Bench Pro测试中达成58.6%的解决率。尽管Claude Opus 4.7以64.3%略胜一筹,但OpenAI分析认为这可能源于Anthropic披露的模型在部分任务中存在记忆偏差现象。
快速迭代节奏重塑行业生态
随着智能体驱动的AI热潮加速,市场更新频率持续攀升。GPT-5.4与GPT-5.3仅相隔两天发布,小米亦在约五周内完成从MiMo-V2-Pro到支持全模态的MiMo 2.5 Pro的升级,而本次从GPT-5.4到GPT-5.5的演进周期约为七周,已成当前主流节奏。
对普通非技术用户而言,该模型的实际可用性仍受限:免费账户暂未开放访问权限;每月支付20美元的Plus订阅用户可立即使用。测试阶段中,专业开发者账户尚未被授予调用资格。
企业级协作环境实现质变
更关键的突破体现在开发工具链层面。MagicPath首席执行官Pietro Schirano通过OpenAI分享的案例表示:“它真正让我体验到更高维度的智能协同,甚至产生一种近乎敬畏的感受。”
针对高精度、高难度任务设计的GPT-5.5 Pro版本已面向ChatGPT的专业版、商业版及企业版用户独立上线。在衡量网络信息检索能力的BrowseComp评估中,该版本以90.1%的得分领先于Gemini 3.1 Pro(85.9%)。根据Artificial Analysis指数统计,其在整体智能水平与令牌使用效率上均处于领先地位。
成本结构优化背后的定价逻辑
新模型的定价机制引发广泛讨论:API输入令牌每百万计费5美元,输出令牌每百万30美元(预计即将开放);而GPT-5.5 Pro的输入单价为每百万30美元,输出为每百万180美元。相较GPT-5.4(输入2.5美元/输出15美元)有所上调,但与GPT-5.4 Pro的定价持平。
OpenAI首席执行官Sam Altman在X平台解释称,由于模型在任务完成中的令牌效率显著提升,即使单价上涨,实际单位任务成本反而可能下降——因为完成相同Codex任务所需的令牌数更少。
横向比较显示:小米MiMo v2.5 Pro的输入/输出单价分别为1美元与3美元;Minimax M2.7为0.30美元与1.20美元;Kimi K2.5则为0.44美元与2.00美元。
声明:本站所有文章内容,均为采集网络资源,不代表本站观点及立场,不构成任何投资建议!如若内容侵犯了原著者的合法权益,可联系本站删除。
