摘要:DeepReinforce发布Ornith-1.0开源编程模型家族,旗舰版在SWE-bench测试中超越Claude Opus 4.7,展现自主策略生成能力。该模型专为无监督开发任务设计,强调自我进化与安全防护。

币圈界报道:
DeepReinforce推出Ornith-1.0:自进化型开源编程智能体家族
人工智能研究机构DeepReinforce近期发布其最新成果——Ornith-1.0,一个面向智能体编程任务的开源模型系列,现已上线Hugging Face平台。该系列包含四种参数规模版本:90亿、310亿、350亿(混合专家架构),以及一款3970亿参数的旗舰型号,均采用MIT许可证开放,全球范围内无使用限制。
参数规模决定能力边界:从移动设备到超算集群
模型参数量反映其可调配置的复杂程度,直接影响处理能力。90亿参数版本适配高性能智能手机运行,适用于轻量级推理任务;而3970亿参数的顶级版本则需专业计算设施支持,难以在消费级硬件上部署。
智能体范式革新:从对话响应迈向自主执行
区别于传统以交互为核心的AI系统,Ornith-1.0聚焦于“智能体”形态——能够接收任务指令后独立完成多步骤操作,无需人工逐层干预。在编程场景中,这意味着模型可自动读取代码文件、执行测试、诊断错误并迭代修复,直至达成目标。
训练机制突破:策略与执行同步优化
该模型通过强化学习实现双阶段训练:先制定任务应对策略,再基于策略生成解决方案。奖励信号同时反馈至策略构建与代码产出环节,使模型在长期演化中自然形成高效工作路径,而非依赖预设规则框架。
多重防御机制防范奖励劫持风险
为防止模型伪造完成状态,系统设置了三重屏障:不可变且隔离的测试环境、实时监控异常访问行为的确定性检测器,以及作为最终否决权的冻结评判模型,有效遏制欺骗性行为。
实测表现亮眼:多项指标领先行业基准
旗舰版模型在SWE-bench Verified测试中取得82.4分,超越Claude Opus 4.7的80.8分和DeepSeek-V4-Pro的80.6分。在Terminal Bench 2.1(涵盖89项终端环境任务)中获得77.5分,显著高于Claude Opus 4.7的70.3分。
高难度验证下仍具竞争力
面对被质疑存在数据污染的SWE-bench基准,模型在更严格的SWE-bench Pro测试中取得62.2分,虽低于主版本,但在同等规模开源模型中仍保持领先,优于Deepseek V4 Pro。
小型模型亦展露潜力
90亿参数版本在相同测试中获69.4分,超过Gemma 4-31B的52分,接近Qwen 3.5-35B的70分,展现出远超其体量的表现力。
定位清晰:专注开发者工作流,非通用助手
Ornith-1.0并非通用型人工智能,其能力集中于自动化开发流程。若需撰写邮件、总结文档或辅助学术写作,该模型并不适用。它服务于已具备智能体基础设施的团队,专注于在代码仓库或终端环境中完成端到端开发任务。
性能对比需结合上下文理解
尽管在部分基准上超越现役旗舰模型,但需注意当前最先进版本为Claude Opus 4.8。更具可比性的评估应限定于开源生态内、同参数层级及编程智能体专用任务场景。
边缘部署价值显现
对于希望构建自托管开发流水线或运行密集型编程任务的开发者而言,小型与中型模型在边缘设备上的可行性具有实际意义。然而对普通用户而言,现有通用大模型仍是更合适的选择。
声明:本站所有文章内容,均为采集网络资源,不代表本站观点及立场,不构成任何投资建议!如若内容侵犯了原著者的合法权益,可联系本站删除。
