谷歌将街景嵌入AI模型，构建可交互的数字世界

币圈界 2026-05-20 04:29:02 区块链

摘要：谷歌深度思维将全球2800亿张街景图像整合至Genie 3世界模型，实现基于真实地理坐标生成可探索的交互式3D环境，为机器人训练、城市规划与沉浸式体验开辟新路径。

币圈界报道：

谷歌深度思维在近期开发者大会上宣布，已将长期积累的街景影像系统性集成至其通用世界模型Genie 3中，使数字环境能够以真实地理位置为基准进行构建与交互。这一技术突破标志着物理世界与人工智能生成空间之间实现了深度连接。

过去二十年间，谷歌通过车载与便携式设备，在110个国家采集了超2800亿张街景图像，形成全球最全面的视觉地图数据库。如今，这些数据成为Genie 3的核心输入源，支持用户通过文本或图像指令生成具有地理锚点的可探索3D场景。

研究团队指出，该技术结合现实世界感知与生成式建模，为智能体学习和人类预演提供了全新可能。例如，部署于伦敦的机器人可在模拟晴天环境中接受训练，规避历史建筑反射光对传感器造成的干扰；旅行者亦可将纽约某街区虚拟切换为雪季状态，提前感受目的地气候特征。

旗下自动驾驶企业Waymo正利用此能力模拟极端罕见事件，如龙卷风突袭或野生动物闯入道路，以提升车辆应对突发状况的能力。尽管现有模拟器聚焦于车视角，但街景集成允许将观察角度扩展至行人、快递机器人等多元智能体，从而构建更复杂的交通生态。

通过将虚拟训练场景绑定至真实地理坐标，该技术有望显著加速Waymo在新城市的落地进程，使其算法能提前适应不同道路结构、标识系统与环境变量，无需依赖实地车队部署。

尽管演示效果令人瞩目，包括对水下街区的虚构重构，但该功能目前仍处于研发初期。产品负责人表示，当前生成环境虽具备基本可识别性，但画质仅达电子游戏水准，尚未实现照片级写实表现。

模型尚缺乏基础物理理解——例如在模拟中，人物穿越仙人掌丛时未受阻碍。研究人员承认这一缺陷，并类比当前进展为6至12个月前的视频生成模型水平。他们强调，未来将通过大规模被动观察，让系统逐步掌握物体间的因果关系与空间约束。

一位拥有十余年街景项目经验的高管指出，真正的技术飞跃在于空间连续性：当用户旋转视角时，系统能准确回溯并延续背景信息，进而在此基础上创造新环境。这正是团队长期追求的核心目标。

自今日起，谷歌已向美国部分高级用户开放Genie中的街景功能，并将在未来几周内扩大至全美及全球范围的高阶用户群体。产品经理明确表示，虽然推广是重要方向，但首要任务仍是提升生成内容的准确性与物理合理性。

通过打通现实影像与生成智能之间的通道，谷歌深度思维正在构建一个全新的交互式模拟范式。尽管尚处早期，这项融合街景与生成模型的技术，已在机器人学习、自动驾驶、城市设计与教育应用等领域展现出深远潜力。

问：什么是Genie 3？

答：Genie 3是谷歌深度思维开发的通用世界模型，可根据文本提示或图像输入生成交互式、可探索的3D虚拟环境，广泛适用于机器人训练、游戏开发与教育场景。

问：街景集成如何运作？

答：该功能依托谷歌覆盖110个国家的2800亿张街景图像，作为生成真实地理位置锚定环境的基础。用户可实时操控视角、调整天气条件，实现对特定区域的动态可视化。

问：模拟是否具备物理真实性？

答：目前不具备。系统尚未建立完整的物理规则认知，导致角色可能穿透障碍物。谷歌预计在未来6至12个月内，通过持续学习实现更自然的交互行为。

声明：本站所有文章内容，均为采集网络资源，不代表本站观点及立场，不构成任何投资建议！如若内容侵犯了原著者的合法权益，可联系本站删除。

₿

币安 Binance

币安交易所是全球加密货币交易所,注册奖励 500 U