谷歌开源文本扩散模型，速度飙升四倍引关注

币圈界 2026-06-11 07:28:01 区块链

摘要：谷歌发布首款开源文本扩散模型DiffusionGemma，以并行生成方式实现每秒1000个令牌的处理速度，较传统Gemma提升四倍。尽管输出质量略逊，但其架构革新为实时应用与复杂结构生成开辟新路径。

币圈界报道：

谷歌推出文本扩散模型DiffusionGemma：速度突破四倍，开源落地

谷歌今日正式发布开源人工智能模型DiffusionGemma，采用创新的文本扩散机制，通过从随机噪声中逐步提炼出连贯文本内容，实现生成效率跃升。该模型在英伟达H100硬件上可实现每秒1000个令牌的吞吐量，相较常规Gemma模型提速达四倍。模型已开放下载，基于Apache 2.0许可，权重全面公开。

性能表现受限于硬件配置，质量未达标准版水准

尽管具备显著速度优势，但实际部署仍受制于设备能力。官方数据显示，在英伟达GeForce RTX 5090上每秒仅能处理700多个令牌。同时，谷歌明确指出，该模型定位为速度优化型，而非质量增强版本，其输出清晰度与标准Gemma 4仍有差距。

生成范式变革：并行精炼取代顺序编码

与传统自回归语言模型逐字生成不同，DiffusionGemma摒弃线性流程，转而采用并行细化策略。它从一个由随机占位符构成的初始文本块出发，通过多轮迭代逐步锁定高置信度的词汇单元，直至整体语义清晰成型。每次前向传播可处理256个令牌，使GPU利用率维持在高位。

这种机制带来双向注意力能力——每个词在生成时均可感知全局上下文，突破了自回归模型对“未来不可知”的限制。这使其在需要严格结构控制的任务中表现突出，如代码补全、格式化输出及强约束推理。谷歌通过微调版本演示解数独任务，基础模型几乎无法完成，而优化后正确率高达80%。

从学术构想到开源实践的关键跨越

文本扩散概念在学术界已存在多年，包括MDLM、SEDD、LLaDA等早期研究验证了其在小规模场景下的可行性，但大多停留在理论验证阶段。2026年2月，Inception Labs发布商业版Mercury 2，宣称推理速度领先同类五倍，但始终未开源，也未集成主流推理框架。此次DiffusionGemma成为首个大规模开源的扩散类语言模型，标志着该技术进入实用化门槛。

历史颇具反讽意味：图像生成最初依赖扩散架构（如Stable Diffusion），如今正回退至自回归以追求更高质量；而语言模型起源于自回归，如今却转向扩散以换取极致速度。

运行依赖特定工具链，部署门槛依然较高

要充分发挥性能，需搭配“起草器”模块——一个轻量级组件负责并行提出候选令牌块，再由主模型统一验证。这一过程称为推测解码。DFlash框架于2026年初推出，利用小型扩散模型作为起草器，在部分任务中实现超六倍加速，是推动此类模型落地的核心技术。

然而当前挑战在于兼容性：目前尚无公开版本支持在苹果芯片上通过MLX框架本地运行。相关模块未出现在mlx-lm、任何开放pull request或LM Studio预装环境之中。尝试通过英伟达NIM框架加载时，出现“代理初始化失败”提示，错误归因于上下文窗口不足。实际上，模型真实上下文容量为256K令牌，8192仅为默认配置误报。正确启动需手动调整参数，多数普通用户难以掌握，导致代理无法激活。即便速度惊人，若运行链路断裂，性能亦无法兑现。期待社区近期提供更完善的部署指南。

目标应用场景广泛，未来生态待完善

主要面向配备英伟达RTX 4090或5090显卡的开发者，适用于构建低延迟实时工具，如内联编辑器、自动补全系统、代码填充引擎和结构化内容生成器。谷歌此前已在四月以Apache 2.0协议发布Gemma 4，此次延续开放策略。目前已有针对llama.cpp的pull request草案提交，一旦工具链成熟，将覆盖更多终端用户。

在独立GPU设备上，每秒1000个令牌的速度已具备实际可用性。对于科研人员而言，双向生成能力打开了全新可能——蛋白质序列设计、数学图结构推导等第N项依赖第N+50项的问题，将成为突破口。这不仅是一次技术迭代，更是范式演进的开端。

声明：本站所有文章内容，均为采集网络资源，不代表本站观点及立场，不构成任何投资建议！如若内容侵犯了原著者的合法权益，可联系本站删除。

₿

币安 Binance

币安交易所是全球加密货币交易所,注册奖励 500 U

官网注册

谷歌开源文本扩散模型，速度飙升四倍引关注

币圈界报道：

谷歌推出文本扩散模型DiffusionGemma：速度突破四倍，开源落地

性能表现受限于硬件配置，质量未达标准版水准

生成范式变革：并行精炼取代顺序编码

从学术构想到开源实践的关键跨越

运行依赖特定工具链，部署门槛依然较高

目标应用场景广泛，未来生态待完善

相关推荐