微软开源Fara1.5：小模型突破浏览器智能体瓶颈

币圈界 2026-05-23 06:28:01 区块链

摘要：微软发布Fara1.5系列开源模型，在真实网页任务中表现超越OpenAI与谷歌闭源方案，其创新训练流程与开放部署策略重塑浏览器自动化竞争格局。

币圈界报道：

微型智能体实现网页操作跃升：微软Fara1.5挑战行业巨头

设想一个场景：只需下达一句指令，计算机便能自动浏览多个度假租赁平台，比价、填表、确认最靠近海滩的房源，全程无需人工干预。这正是“浏览器智能体”所追求的目标——让AI具备与人类相同的视觉理解与交互能力，且不依赖特殊插件。

开源模型性能反超闭源巨头，关键指标全面领先

尽管OpenAI于2025年1月推出基于云端的Operator服务并随后整合至ChatGPT智能体，后于同年8月终止；谷歌亦推出Gemini 2.5的网页操作功能，但两者均为高成本、封闭式架构。相比之下，微软研究院本周发布的Fara1.5系列模型在多项基准测试中实现显著超越。

该系列包含40亿、90亿及270亿参数三个版本，均基于阿里巴巴Qwen3.5基础模型构建，并经专门针对浏览器操作的微调优化，所有权重已向公众开放。参数量决定知识容量与推理深度，通常越大越强。

从零重构开发链路：全生命周期设计驱动性能飞跃

研究团队提出核心命题：“如何使小型模型真正胜任复杂智能体任务？”答案并非局部优化，而是贯穿数据生成、训练目标设定、模型结构设计与协同机制的整体性重构。

在核心评测框架Online-Mind2Web中，系统评估智能体在136个真实热门网站上完成300项多样化任务（如比价、预约、填单）的准确率。Fara1.5-27B以72%的得分位居榜首，大幅领先于OpenAI Operator的58.3%和谷歌Gemini 2.5的57.3%。即便是中等规模的Fara1.5-9B也达到63.4%，超越二者。

相较之下，其他开源方案表现平平：阿里巴巴的GUI-Owl-1.5仅得48.6%，AI2的MolmoWeb为35.3%，而前代Fara-7B仅为34.1%。新版本在相近规模下性能近乎翻倍。

实测表现再创新高：动态网络任务成功率居首

在衡量实时网页操作能力的WebVoyager基准中，Fara1.5-27B以88.6%的成功率略胜OpenAI Operator的87.0%，同时击败参数高达300亿的Holo2模型（83.0%），展现强大泛化能力。

训练范式革新：借力对手打造自研数据体系

核心技术突破源自名为FaraGen1.5的数据生成系统。其巧妙之处在于：利用OpenAI GPT-5.4作为“教师智能体”，演示完整浏览器操作流程，再将这些行为序列转化为高质量训练样本。本质上，是用行业最强模型来训练开源替代品。

此外，团队构建了六个功能完备的仿真环境（涵盖邮箱、日历、交易平台等），支持模型练习需登录或执行不可逆操作的任务，避免触碰真实账户。这种合成数据训练策略，是其在“受限任务”中表现优异的关键。

所有模型在执行关键操作前均会暂停并请求用户确认。高级项目经理强调：“在保障安全与维持用户体验流畅之间取得平衡至关重要。”其配套的Magentic-UI交互界面，既提供必要干预点，又防止用户因频繁审批产生疲劳。

这一设计呼应了OpenAI此前对智能体风险的警示：“授权访问网站可能暴露邮件、文件及账户信息。”而Fara1.5的所有操作均运行于MagenticLite沙箱浏览器环境中，每一步可被追踪并随时中断。

开放生态构筑护城河：自主部署与跨平台扩展

当前浏览器智能体领域竞争激烈：谷歌集成Gemini于Chrome，Perplexity推出Comet，Anthropic上线Claude浏览器版。而Fara1.5的核心优势在于其彻底开放——模型权重公开、推理代码托管于GitHub，支持用户在本地或私有服务器部署。

Fara1.5-9B已上线Azure AI Foundry，40亿与270亿版本即将发布。微软表示，未来将拓展应用场景至桌面应用与企业级软件系统，推动通用智能体落地。

声明：本站所有文章内容，均为采集网络资源，不代表本站观点及立场，不构成任何投资建议！如若内容侵犯了原著者的合法权益，可联系本站删除。

₿

币安 Binance

币安交易所是全球加密货币交易所,注册奖励 500 U

官网注册下载APP

微软开源Fara1.5：小模型突破浏览器智能体瓶颈

币圈界报道：

微型智能体实现网页操作跃升：微软Fara1.5挑战行业巨头

开源模型性能反超闭源巨头，关键指标全面领先

从零重构开发链路：全生命周期设计驱动性能飞跃

实测表现再创新高：动态网络任务成功率居首

训练范式革新：借力对手打造自研数据体系

开放生态构筑护城河：自主部署与跨平台扩展

相关推荐