AI音乐模型双雄更新：开源与授权成新焦点

币圈界 2026-05-28 05:28:13 区块链

摘要：ElevenLabs推出Music v2，Stability AI发布Stable Audio 3.0，两大模型在长时生成、开源策略与版权合规方面实现突破，挑战Suno的市场主导地位。

币圈界报道：

两大AI音乐引擎同步迭代，版权与开放性成核心议题

本周，AI音乐领域迎来双重技术升级。波兰语音技术企业ElevenLabs在完成5亿美元融资后，估值攀升至110亿美元，正式推出其第二代音乐生成模型Music v2。与此同时，Stable Diffusion母公司Stability AI亦发布Stable Audio 3.0系列，包含四款模型，支持长达六分钟以上的音频生成，并开放部分权重供社区使用。

版权合规成为行业共识，训练数据透明化成标配

此次更新的深层动因源于2024年针对Suno与Udio的集体版权诉讼。为规避法律风险，新版本均强调“基于授权数据训练”的原则，确保用户生成内容具备合法边界，成为当前产品宣传的核心标签。

Music v2：跨风格连贯生成能力显著跃升

作为继初代模型发布十个月后的迭代成果，Music v2在处理复杂指令时展现出更强的结构稳定性。其可实现单曲内从歌剧风格无缝切换至重金属，再回归原调，且在快速说唱段落中维持整体架构完整，甚至能嵌入非旋律音效而不破坏连贯性。

该模型引入实用化的局部重绘功能，支持用户指定片段重新生成，其余部分保持不变；分段创作模式亦得以优化，确保章节间逻辑衔接自然。多语言支持能力增强，但具体实现细节尚未披露。

目前，Music v2已覆盖三大应用场景：面向创作者的ElevenMusic平台、面向开发者的ElevenAPI接口，以及面向品牌合作的ElevenCreative。前两者已上线，API需经销售团队审批获取。公司同步下调v1与v2模型定价，并透露音乐业务年度经常性收入已达5亿美元。尽管占比仍低，但今年四月推出的消费者应用已直接切入Suno用户群体。

Stable Audio 3.0：多层级模型布局，设备端运行成亮点

相较于此前最长仅支持三分钟生成的Stable Audio 2.0，新版推出四个模型：小型音效生成器（可在设备端运行）、小型全曲作曲模型（同样本地部署）、中型模型（支持6分20秒音频生成，需较强算力）及大型模型（仅限高预算组织通过API调用）。

其中三个模型提供开源权重。小型模型参数量为4.59亿，无需GPU即可运行；中型模型达14亿参数，在专业显卡上生成6分20秒音频耗时约1.31秒；大型模型则拥有27亿参数，仅对年营收超百万美元的企业开放接入。

全新设计的语义声学自动编码器保障长音频旋律统一性。支持LoRA微调，艺术家可使用自有作品定制专属模型。局部重绘功能支持单段或多段修改，并可扩展因果关系以保持上下文一致。其开源策略延续图像领域成功经验，配合与主流音乐集团的合作，当前授权清晰度达到历史峰值。

格局重塑：挑战AI音乐霸主Suno的生态壁垒

若将ChatGPT视为文本生成领域的领军者，那么Suno便是当前音乐生成赛道的绝对领导者。其背后公司在2025年11月估值已达24.5亿美元，年经常性收入突破3亿美元，用户规模接近1亿，日均歌曲生成量逾700万首。

为应对版权压力，ElevenLabs已与多家版权方达成协议，而Stability则获得两大音乐集团背书。曾涉诉的Udio现已转为封闭式平台运营。目前，Stable Audio 3.0的中小型模型已在开源平台上线，ElevenMusic用户可免费使用基础功能，商业用途则可通过对应渠道申请服务。

声明：本站所有文章内容，均为采集网络资源，不代表本站观点及立场，不构成任何投资建议！如若内容侵犯了原著者的合法权益，可联系本站删除。

₿

币安 Binance

币安交易所是全球加密货币交易所,注册奖励 500 U

官网注册下载APP

AI音乐模型双雄更新：开源与授权成新焦点

币圈界报道：

两大AI音乐引擎同步迭代，版权与开放性成核心议题

版权合规成为行业共识，训练数据透明化成标配

Music v2：跨风格连贯生成能力显著跃升

Stable Audio 3.0：多层级模型布局，设备端运行成亮点

格局重塑：挑战AI音乐霸主Suno的生态壁垒

相关推荐