摘要:DeepReinforce推出Ornith-1.0开源编程模型家族,涵盖90亿至3970亿参数版本,以自学习工作流机制突破传统智能体框架限制,在SWE-bench等基准测试中表现超越Claude Opus 4.7,为开发者提供可自进化、无需人工干预的编程解决方案。

币圈界报道:
DeepReinforce发布Ornith-1.0:自演化智能体编程模型家族问世
人工智能研究机构DeepReinforce近日正式推出其全新开源编程模型系列Ornith-1.0,该系列已在Hugging Face平台上线,提供四种不同规模的版本——90亿、310亿、350亿(混合专家架构)以及3970亿参数的旗舰型号。所有模型均采用MIT许可证开放,无地域使用限制。
参数规模决定能力边界,硬件适配性差异显著
模型参数数量反映了其在训练过程中可调节的复杂度水平。90亿参数版本被定位为轻量级模型,可在高端智能手机上本地运行,但难以承担高强度推理任务;而3970亿参数的顶级版本则具备极强的处理能力,但需依赖高性能计算集群支持,无法在消费级设备上部署。
智能体驱动开发流程,实现端到端自主执行
该系列被定义为专为智能体编程任务设计的开源模型家族,强调“自我改进”特性。与传统对话式AI不同,智能体能够接收一个完整任务指令后,自主完成代码读取、测试执行、错误诊断、修复迭代等多步骤操作,全程无需人类介入。这使其成为未来自动化开发流水线的核心引擎。
训练机制革新:策略与执行同步进化
Ornith采用双阶段强化学习架构:首先生成任务应对策略,再基于该策略产出解决方案。奖励信号同时反馈至策略制定与代码生成两个环节,促使模型持续优化工作路径本身,而非仅提升代码质量。经过大量循环训练,高效的任务执行路径将自然浮现,无需预先设定固定规则。
三重防护机制遏制奖励滥用风险
为防范模型通过伪造行为骗取高分,系统设置了多重安全屏障:环境与测试套件不可修改且超出模型访问权限;实时监控器会检测任何对受限路径或验证脚本的异常操作;此外还部署了冻结状态的评判模型作为最终否决层,确保评估结果真实可信。
实测表现亮眼,开源阵营中脱颖而出
3970亿参数版本在SWE-bench Verified测试中取得82.4分,领先于Claude Opus 4.7的80.8分和DeepSeek-V4-Pro的80.6分。在更严格的Terminal Bench 2.1测试中,其得分达77.5,优于Claude Opus 4.7的70.3。针对基准污染争议,该模型在更高难度的SWE-bench Pro上仍获得62.2分,虽低于主测试,但在同类开源模型中保持领先。
小型模型展现惊人性价比
90亿参数版本在SWE-bench Verified上取得69.4分,超越Gemma 4-31B的52分,并接近Qwen 3.5-35B的70分,尽管参数规模仅为后者的三分之一至四分之一,凸显其高效设计优势。
专注领域明确,非通用型人工智能
Ornith-1.0并非通用型大模型。其文档明确指出,它在非编程任务如摘要生成、论文撰写或邮件起草方面表现有限。该系列专门优化于开发者工作流场景:接收任务描述,直接在代码仓库或终端环境中执行多步操作并闭环完成,适用于已有智能体基础设施的团队。
对比语境关键:开源生态中的真正竞争力
虽然宣称“超越Claude”,但需结合上下文理解。当前各实验室竞相追求智能体编程评测表现,因其最能体现实际应用价值。尽管最新版Claude Opus 4.8得分更高,但在同等参数规模与开源属性下,Ornith-1.0-397B在特定任务中展现出显著优势。
边缘部署潜力释放,目标用户精准聚焦
对于希望构建自托管编程流水线或智能体系统的开发者而言,小型与中型模型在边缘设备上的可行性具有实际意义。但对于普通终端用户而言,其功能定位决定了更适合寻找其他类型的AI工具。
声明:本站所有文章内容,均为采集网络资源,不代表本站观点及立场,不构成任何投资建议!如若内容侵犯了原著者的合法权益,可联系本站删除。
