币圈界报道:

两大AI音乐引擎同步迭代,版权与开放性成核心议题

本周,AI音乐领域迎来双重技术升级。波兰语音技术企业ElevenLabs在完成5亿美元融资后,估值攀升至110亿美元,正式推出其第二代音乐生成模型Music v2。与此同时,Stable Diffusion母公司Stability AI亦发布Stable Audio 3.0系列,包含四款模型,支持长达六分钟以上的音频生成,并开放部分权重供社区使用。

版权合规成为行业共识,训练数据透明化成标配

此次更新的深层动因源于2024年针对Suno与Udio的集体版权诉讼。为规避法律风险,新版本均强调“基于授权数据训练”的原则,确保用户生成内容具备合法边界,成为当前产品宣传的核心标签。

Music v2:跨风格连贯生成能力显著跃升

作为继初代模型发布十个月后的迭代成果,Music v2在处理复杂指令时展现出更强的结构稳定性。其可实现单曲内从歌剧风格无缝切换至重金属,再回归原调,且在快速说唱段落中维持整体架构完整,甚至能嵌入非旋律音效而不破坏连贯性。

该模型引入实用化的局部重绘功能,支持用户指定片段重新生成,其余部分保持不变;分段创作模式亦得以优化,确保章节间逻辑衔接自然。多语言支持能力增强,但具体实现细节尚未披露。

目前,Music v2已覆盖三大应用场景:面向创作者的ElevenMusic平台、面向开发者的ElevenAPI接口,以及面向品牌合作的ElevenCreative。前两者已上线,API需经销售团队审批获取。公司同步下调v1与v2模型定价,并透露音乐业务年度经常性收入已达5亿美元。尽管占比仍低,但今年四月推出的消费者应用已直接切入Suno用户群体。

Stable Audio 3.0:多层级模型布局,设备端运行成亮点

相较于此前最长仅支持三分钟生成的Stable Audio 2.0,新版推出四个模型:小型音效生成器(可在设备端运行)、小型全曲作曲模型(同样本地部署)、中型模型(支持6分20秒音频生成,需较强算力)及大型模型(仅限高预算组织通过API调用)。

其中三个模型提供开源权重。小型模型参数量为4.59亿,无需GPU即可运行;中型模型达14亿参数,在专业显卡上生成6分20秒音频耗时约1.31秒;大型模型则拥有27亿参数,仅对年营收超百万美元的企业开放接入。

全新设计的语义声学自动编码器保障长音频旋律统一性。支持LoRA微调,艺术家可使用自有作品定制专属模型。局部重绘功能支持单段或多段修改,并可扩展因果关系以保持上下文一致。其开源策略延续图像领域成功经验,配合与主流音乐集团的合作,当前授权清晰度达到历史峰值。

格局重塑:挑战AI音乐霸主Suno的生态壁垒

若将ChatGPT视为文本生成领域的领军者,那么Suno便是当前音乐生成赛道的绝对领导者。其背后公司在2025年11月估值已达24.5亿美元,年经常性收入突破3亿美元,用户规模接近1亿,日均歌曲生成量逾700万首。

为应对版权压力,ElevenLabs已与多家版权方达成协议,而Stability则获得两大音乐集团背书。曾涉诉的Udio现已转为封闭式平台运营。目前,Stable Audio 3.0的中小型模型已在开源平台上线,ElevenMusic用户可免费使用基础功能,商业用途则可通过对应渠道申请服务。