摘要:谷歌发布首款开源文本扩散模型DiffusionGemma,以并行生成方式实现每秒1000个令牌的处理速度,较传统Gemma提升四倍。尽管输出质量略逊,但其架构革新为实时应用与复杂结构生成开辟新路径。

币圈界报道:
谷歌推出文本扩散模型DiffusionGemma:速度突破四倍,开源落地
谷歌今日正式发布开源人工智能模型DiffusionGemma,采用创新的文本扩散机制,通过从随机噪声中逐步提炼出连贯文本内容,实现生成效率跃升。该模型在英伟达H100硬件上可实现每秒1000个令牌的吞吐量,相较常规Gemma模型提速达四倍。模型已开放下载,基于Apache 2.0许可,权重全面公开。
性能表现受限于硬件配置,质量未达标准版水准
尽管具备显著速度优势,但实际部署仍受制于设备能力。官方数据显示,在英伟达GeForce RTX 5090上每秒仅能处理700多个令牌。同时,谷歌明确指出,该模型定位为速度优化型,而非质量增强版本,其输出清晰度与标准Gemma 4仍有差距。
生成范式变革:并行精炼取代顺序编码
与传统自回归语言模型逐字生成不同,DiffusionGemma摒弃线性流程,转而采用并行细化策略。它从一个由随机占位符构成的初始文本块出发,通过多轮迭代逐步锁定高置信度的词汇单元,直至整体语义清晰成型。每次前向传播可处理256个令牌,使GPU利用率维持在高位。
这种机制带来双向注意力能力——每个词在生成时均可感知全局上下文,突破了自回归模型对“未来不可知”的限制。这使其在需要严格结构控制的任务中表现突出,如代码补全、格式化输出及强约束推理。谷歌通过微调版本演示解数独任务,基础模型几乎无法完成,而优化后正确率高达80%。
从学术构想到开源实践的关键跨越
文本扩散概念在学术界已存在多年,包括MDLM、SEDD、LLaDA等早期研究验证了其在小规模场景下的可行性,但大多停留在理论验证阶段。2026年2月,Inception Labs发布商业版Mercury 2,宣称推理速度领先同类五倍,但始终未开源,也未集成主流推理框架。此次DiffusionGemma成为首个大规模开源的扩散类语言模型,标志着该技术进入实用化门槛。
历史颇具反讽意味:图像生成最初依赖扩散架构(如Stable Diffusion),如今正回退至自回归以追求更高质量;而语言模型起源于自回归,如今却转向扩散以换取极致速度。
运行依赖特定工具链,部署门槛依然较高
要充分发挥性能,需搭配“起草器”模块——一个轻量级组件负责并行提出候选令牌块,再由主模型统一验证。这一过程称为推测解码。DFlash框架于2026年初推出,利用小型扩散模型作为起草器,在部分任务中实现超六倍加速,是推动此类模型落地的核心技术。
然而当前挑战在于兼容性:目前尚无公开版本支持在苹果芯片上通过MLX框架本地运行。相关模块未出现在mlx-lm、任何开放pull request或LM Studio预装环境之中。尝试通过英伟达NIM框架加载时,出现“代理初始化失败”提示,错误归因于上下文窗口不足。实际上,模型真实上下文容量为256K令牌,8192仅为默认配置误报。正确启动需手动调整参数,多数普通用户难以掌握,导致代理无法激活。即便速度惊人,若运行链路断裂,性能亦无法兑现。期待社区近期提供更完善的部署指南。
目标应用场景广泛,未来生态待完善
主要面向配备英伟达RTX 4090或5090显卡的开发者,适用于构建低延迟实时工具,如内联编辑器、自动补全系统、代码填充引擎和结构化内容生成器。谷歌此前已在四月以Apache 2.0协议发布Gemma 4,此次延续开放策略。目前已有针对llama.cpp的pull request草案提交,一旦工具链成熟,将覆盖更多终端用户。
在独立GPU设备上,每秒1000个令牌的速度已具备实际可用性。对于科研人员而言,双向生成能力打开了全新可能——蛋白质序列设计、数学图结构推导等第N项依赖第N+50项的问题,将成为突破口。这不仅是一次技术迭代,更是范式演进的开端。
声明:本站所有文章内容,均为采集网络资源,不代表本站观点及立场,不构成任何投资建议!如若内容侵犯了原著者的合法权益,可联系本站删除。
