摘要:微软发布Fara1.5系列开源模型,在真实网页任务中表现超越OpenAI与谷歌闭源方案,其创新训练流程与开放部署策略重塑浏览器自动化竞争格局。

币圈界报道:
微型智能体实现网页操作跃升:微软Fara1.5挑战行业巨头
设想一个场景:只需下达一句指令,计算机便能自动浏览多个度假租赁平台,比价、填表、确认最靠近海滩的房源,全程无需人工干预。这正是“浏览器智能体”所追求的目标——让AI具备与人类相同的视觉理解与交互能力,且不依赖特殊插件。
开源模型性能反超闭源巨头,关键指标全面领先
尽管OpenAI于2025年1月推出基于云端的Operator服务并随后整合至ChatGPT智能体,后于同年8月终止;谷歌亦推出Gemini 2.5的网页操作功能,但两者均为高成本、封闭式架构。相比之下,微软研究院本周发布的Fara1.5系列模型在多项基准测试中实现显著超越。
该系列包含40亿、90亿及270亿参数三个版本,均基于阿里巴巴Qwen3.5基础模型构建,并经专门针对浏览器操作的微调优化,所有权重已向公众开放。参数量决定知识容量与推理深度,通常越大越强。
从零重构开发链路:全生命周期设计驱动性能飞跃
研究团队提出核心命题:“如何使小型模型真正胜任复杂智能体任务?”答案并非局部优化,而是贯穿数据生成、训练目标设定、模型结构设计与协同机制的整体性重构。
在核心评测框架Online-Mind2Web中,系统评估智能体在136个真实热门网站上完成300项多样化任务(如比价、预约、填单)的准确率。Fara1.5-27B以72%的得分位居榜首,大幅领先于OpenAI Operator的58.3%和谷歌Gemini 2.5的57.3%。即便是中等规模的Fara1.5-9B也达到63.4%,超越二者。
相较之下,其他开源方案表现平平:阿里巴巴的GUI-Owl-1.5仅得48.6%,AI2的MolmoWeb为35.3%,而前代Fara-7B仅为34.1%。新版本在相近规模下性能近乎翻倍。
实测表现再创新高:动态网络任务成功率居首
在衡量实时网页操作能力的WebVoyager基准中,Fara1.5-27B以88.6%的成功率略胜OpenAI Operator的87.0%,同时击败参数高达300亿的Holo2模型(83.0%),展现强大泛化能力。
训练范式革新:借力对手打造自研数据体系
核心技术突破源自名为FaraGen1.5的数据生成系统。其巧妙之处在于:利用OpenAI GPT-5.4作为“教师智能体”,演示完整浏览器操作流程,再将这些行为序列转化为高质量训练样本。本质上,是用行业最强模型来训练开源替代品。
此外,团队构建了六个功能完备的仿真环境(涵盖邮箱、日历、交易平台等),支持模型练习需登录或执行不可逆操作的任务,避免触碰真实账户。这种合成数据训练策略,是其在“受限任务”中表现优异的关键。
所有模型在执行关键操作前均会暂停并请求用户确认。高级项目经理强调:“在保障安全与维持用户体验流畅之间取得平衡至关重要。”其配套的Magentic-UI交互界面,既提供必要干预点,又防止用户因频繁审批产生疲劳。
这一设计呼应了OpenAI此前对智能体风险的警示:“授权访问网站可能暴露邮件、文件及账户信息。”而Fara1.5的所有操作均运行于MagenticLite沙箱浏览器环境中,每一步可被追踪并随时中断。
开放生态构筑护城河:自主部署与跨平台扩展
当前浏览器智能体领域竞争激烈:谷歌集成Gemini于Chrome,Perplexity推出Comet,Anthropic上线Claude浏览器版。而Fara1.5的核心优势在于其彻底开放——模型权重公开、推理代码托管于GitHub,支持用户在本地或私有服务器部署。
Fara1.5-9B已上线Azure AI Foundry,40亿与270亿版本即将发布。微软表示,未来将拓展应用场景至桌面应用与企业级软件系统,推动通用智能体落地。
声明:本站所有文章内容,均为采集网络资源,不代表本站观点及立场,不构成任何投资建议!如若内容侵犯了原著者的合法权益,可联系本站删除。
