摘要:微软研究院发布Fara1.5系列开源模型,在多项关键任务测试中超越OpenAI与谷歌闭源方案。其创新训练流程与开放部署策略,标志着智能体技术进入新阶段。

币圈界报道:
微软开源Fara1.5:小型模型实现浏览器任务突破
设想一个场景:只需一句指令,计算机便能自动比对多个度假租赁平台、填写预订表单,并选择离海滩最近的房源——全程无需人工干预。这正是“计算机使用智能体”所描绘的未来图景:具备读取屏幕内容、执行点击与输入等操作能力,且无需额外插件支持。
闭源方案渐显瓶颈,开源路径迎来转机
OpenAI于2025年初推出的Operator服务,虽以每月200美元定价切入市场,但最终在同年8月停止运营并整合进ChatGPT智能体。谷歌则推出基于Gemini 2.5的云端浏览器功能,两者均依赖封闭架构与高昂计算成本。
小模型大突破:Fara1.5刷新性能纪录
本周,微软研究院发布Fara1.5系列模型,涵盖40亿、90亿与270亿参数规模,全部基于阿里巴巴Qwen3.5基础模型构建,并针对网页交互任务进行专项微调,所有权重均已公开发布。
训练体系重构:从数据到决策的全流程革新
该成果的核心在于开发范式的根本性转变。团队提出:“如何让小型模型真正胜任复杂智能体任务?”答案是——必须对数据生成、训练目标、模型结构与协同机制实施一体化设计,而非孤立优化。
真实环境下的任务表现全面领先
在核心基准测试Online-Mind2Web中,Fara1.5-27B以72%的准确率位居榜首,大幅超越OpenAI Operator的58.3%与谷歌Gemini 2.5的57.3%。即便中等规模的Fara1.5-9B也达到63.4%,超过前两者。
在另一项评估实时网络操作成功率的WebVoyager测试中,Fara1.5-27B以88.6%得分略胜于OpenAI Operator的87.0%,并击败参数达300亿的Holo2模型(83.0%)。
以对手为师:创新数据生成机制
关键技术源自名为FaraGen1.5的自动化数据生成系统。它利用OpenAI GPT-5.4作为“教师智能体”,演示完整浏览器任务流程,再将这些行为转化为高质量训练数据。此举相当于以竞品最强模型训练开源替代品。
安全可控:沙箱环境与确认机制双保障
为应对不可逆操作风险,所有模型在执行如发送邮件或订票前均会暂停并请求用户确认。微软研究院高级项目经理强调:“在安全防护与操作流畅性之间取得平衡至关重要。”配套的MagenticLite沙箱环境可记录每一步操作,支持随时中断,确保用户始终掌握控制权。
开放生态驱动广泛落地
面对谷歌、Perplexity、Anthropic等厂商在浏览器端的竞争布局,Fara1.5凭借完全开放的优势脱颖而出:模型权重公开、推理代码托管于GitHub,支持本地部署。目前Fara1.5-9B已上线Azure AI Foundry,40亿与270亿版本即将发布。微软计划将该技术拓展至桌面应用与企业软件领域,推动智能体走向更广泛场景。
声明:本站所有文章内容,均为采集网络资源,不代表本站观点及立场,不构成任何投资建议!如若内容侵犯了原著者的合法权益,可联系本站删除。
