Stable Audio Open Small：手机秒变音频创作站，7秒生成11秒高质量立体声

摘要：近期，Stability AI携手Arm共同揭晓了一款革命性的文本转音频模型——“稳定音频开放小型”。这款模型以其紧凑高效的设计，能够在短短7秒内创造出长达11秒的高保真立体声音频，并且专为在智能手机等便携设备上流畅运行而优化。

近期，Stability AI携手Arm共同揭晓了一款革命性的文本转音频模型——“稳定音频开放小型”。这款模型以其紧凑高效的设计，能够在短短7秒内创造出长达11秒的高保真立体声音频，并且专为在智能手机等便携设备上流畅运行而优化。

这项技术的核心突破得益于加州大学伯克利分校研究团队的创新成果——“对抗相对对比”（ARC）技术。在高端硬件平台，如Nvidia H100 GPU上，该模型的性能更是令人瞩目，仅需75毫秒即可完成44kHz立体声频的合成，几乎达到了实时音频生成的境界。

相较于去年推出的拥有11亿参数的Stable Audio Open原版，此次发布的精简版模型参数量大幅缩减至3.41亿，显著降低了对计算资源的需求，使其能够轻松驾驭消费级硬件。这一成就标志着Stability AI与Arm自今年3月宣布合作以来的首个重大里程碑。

为了实现在智能手机上的无缝运行，开发团队对模型架构进行了全面革新，巧妙地将系统划分为三大核心组件：负责压缩音频数据的自动编码器、解析文本提示的嵌入模块，以及生成最终音频的扩散模型。这一精妙设计确保了模型在资源受限的环境下依然能保持高效能。

Stability AI指出，该模型在音效模拟和现场录音再现方面展现出了卓越的能力，但在音乐创作，特别是歌声处理上仍存在局限性，且目前主要支持英语文本输入。尽管如此，其在特定领域内的表现已足够令人印象深刻。

在模型训练过程中，开发团队精心挑选了来自Freesound数据库的约472,000个符合CC0、CC-BY或CC-Sampling+许可协议的音频片段。通过一系列严格的自动化检查，确保了训练数据的版权合规性，有效避免了潜在的版权争议。

来源：ITBear科技资讯

标签：音频 audio stable audioopen stab

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!