Ornith-1.0开源发布：智能体编程新范式引爆行业

币圈界 2026-06-30 07:28:27 区块链

摘要：DeepReinforce推出Ornith-1.0开源编程模型家族，涵盖90亿至3970亿参数版本，以自学习工作流机制突破传统智能体框架限制，在SWE-bench等基准测试中表现超越Claude Opus 4.7，为开发者提供可自进化、无需人工干预的编程解决方案。

币圈界报道：

DeepReinforce发布Ornith-1.0：自演化智能体编程模型家族问世

人工智能研究机构DeepReinforce近日正式推出其全新开源编程模型系列Ornith-1.0，该系列已在Hugging Face平台上线，提供四种不同规模的版本——90亿、310亿、350亿（混合专家架构）以及3970亿参数的旗舰型号。所有模型均采用MIT许可证开放，无地域使用限制。

参数规模决定能力边界，硬件适配性差异显著

模型参数数量反映了其在训练过程中可调节的复杂度水平。90亿参数版本被定位为轻量级模型，可在高端智能手机上本地运行，但难以承担高强度推理任务；而3970亿参数的顶级版本则具备极强的处理能力，但需依赖高性能计算集群支持，无法在消费级设备上部署。

智能体驱动开发流程，实现端到端自主执行

该系列被定义为专为智能体编程任务设计的开源模型家族，强调“自我改进”特性。与传统对话式AI不同，智能体能够接收一个完整任务指令后，自主完成代码读取、测试执行、错误诊断、修复迭代等多步骤操作，全程无需人类介入。这使其成为未来自动化开发流水线的核心引擎。

训练机制革新：策略与执行同步进化

Ornith采用双阶段强化学习架构：首先生成任务应对策略，再基于该策略产出解决方案。奖励信号同时反馈至策略制定与代码生成两个环节，促使模型持续优化工作路径本身，而非仅提升代码质量。经过大量循环训练，高效的任务执行路径将自然浮现，无需预先设定固定规则。

三重防护机制遏制奖励滥用风险

为防范模型通过伪造行为骗取高分，系统设置了多重安全屏障：环境与测试套件不可修改且超出模型访问权限；实时监控器会检测任何对受限路径或验证脚本的异常操作；此外还部署了冻结状态的评判模型作为最终否决层，确保评估结果真实可信。

实测表现亮眼，开源阵营中脱颖而出

3970亿参数版本在SWE-bench Verified测试中取得82.4分，领先于Claude Opus 4.7的80.8分和DeepSeek-V4-Pro的80.6分。在更严格的Terminal Bench 2.1测试中，其得分达77.5，优于Claude Opus 4.7的70.3。针对基准污染争议，该模型在更高难度的SWE-bench Pro上仍获得62.2分，虽低于主测试，但在同类开源模型中保持领先。

小型模型展现惊人性价比

90亿参数版本在SWE-bench Verified上取得69.4分，超越Gemma 4-31B的52分，并接近Qwen 3.5-35B的70分，尽管参数规模仅为后者的三分之一至四分之一，凸显其高效设计优势。

专注领域明确，非通用型人工智能

Ornith-1.0并非通用型大模型。其文档明确指出，它在非编程任务如摘要生成、论文撰写或邮件起草方面表现有限。该系列专门优化于开发者工作流场景：接收任务描述，直接在代码仓库或终端环境中执行多步操作并闭环完成，适用于已有智能体基础设施的团队。

对比语境关键：开源生态中的真正竞争力

虽然宣称“超越Claude”，但需结合上下文理解。当前各实验室竞相追求智能体编程评测表现，因其最能体现实际应用价值。尽管最新版Claude Opus 4.8得分更高，但在同等参数规模与开源属性下，Ornith-1.0-397B在特定任务中展现出显著优势。

边缘部署潜力释放，目标用户精准聚焦

对于希望构建自托管编程流水线或智能体系统的开发者而言，小型与中型模型在边缘设备上的可行性具有实际意义。但对于普通终端用户而言，其功能定位决定了更适合寻找其他类型的AI工具。

声明：本站所有文章内容，均为采集网络资源，不代表本站观点及立场，不构成任何投资建议！如若内容侵犯了原著者的合法权益，可联系本站删除。

₿

币安 Binance

币安交易所是全球加密货币交易所,注册奖励 500 U

官网注册下载APP

Ornith-1.0开源发布：智能体编程新范式引爆行业

币圈界报道：

DeepReinforce发布Ornith-1.0：自演化智能体编程模型家族问世

参数规模决定能力边界，硬件适配性差异显著

智能体驱动开发流程，实现端到端自主执行

训练机制革新：策略与执行同步进化

三重防护机制遏制奖励滥用风险

实测表现亮眼，开源阵营中脱颖而出

小型模型展现惊人性价比

专注领域明确，非通用型人工智能

对比语境关键：开源生态中的真正竞争力

边缘部署潜力释放，目标用户精准聚焦

相关推荐