国产AI音乐大模型的“三足鼎立”

摘要:Suno的不断迭代让广大网友“玩”了起来。把表情包、自拍、现场Live图,甚至聊天记录丢给Suno,就可以生成一段背景音乐;如果用上Persona功能,用户就可以复用喜欢歌曲中的人声、风格和节奏。用上图片和视频,再加几句提示词,就能提高生成音乐的准确率,合理地

在各大科技企业不断尝试“AI+万物”的当下,AI能做什么、做到什么程度,成为了行业激烈辩论的话题。

11月20日,国外音乐创作平台Suno发布V4版本,允许用户生成音质更高、最长4分钟的音乐作品。

Suno的不断迭代让广大网友“玩”了起来。把表情包、自拍、现场Live图,甚至聊天记录丢给Suno,就可以生成一段背景音乐;如果用上Persona功能,用户就可以复用喜欢歌曲中的人声、风格和节奏。用上图片和视频,再加几句提示词,就能提高生成音乐的准确率,合理地向Suno表达“我想创作什么样的音乐”。

有人说,AI能让生活中的一切元素,都变成歌曲。事实上,在国内市场乃至全球所有华语地区,已然开始出现“Suno平替”甚至在中文人声等领域超越Suno的产品了。

一、“AI音乐三巨头”格局初现

技术水平上看,昆仑天工的SkyMusic、趣丸科技的天谱乐、字节旗下的海绵音乐,可以被看做“国产AI音乐三巨头”。

今年4月,昆仑万维推出了中国首款对外开放的AI音乐生成工具天工SkyMusic,基于全球最大的开源 MoE 大模型——天工 3.0 超级大模型的支持,SkyMusic能够做到发音清晰、无异响,在高音演唱技巧等方面表现优秀。

在自研大模型的支撑下,昆仑万维也于今年8月发布了AI流媒体音乐平台Melodio和AI音乐商用创作平台 Mureka。前者用户只需要根据场景或心情输入Prompt(提示词),便会持续生成相应风格的定制化音乐。在生成音乐或播放过程中,还可以修改文案,改变音乐生成内容、实时查询生成的歌词,并对喜欢的片段进行保存、分享。

此外,字节跳动旗下的智能AI助手豆包也上线了音乐生成功能,字节跳动也推出了其AI音乐产品——海绵音乐,用户只需在豆包中输入主题或歌词,设定音乐风格、情绪及音色,便能快速生成一首约1分钟的词曲。

当然,解决了词曲和音乐的生成,仅仅是AI音乐的第一步。在产品具备更加全面的功能之前,音乐大模型还需要解决歌曲中的一个重要部分——人声。

在前不久结束的36氪WISE大会上,现场播放的主题曲、暖场、串场等音乐,都是在AI音乐创作平台天谱乐的支持下特别创作的。在这其中,天谱乐不仅通过“AI生曲”为歌曲提供了音乐“骨架”,还通过专业级别的人声效果,为歌曲填充了“血肉”,让AI能够完整演唱一首优秀的原创作品。


据悉,不同于大部分大规模研发团队,天谱乐团队的核心研发成员构成多为技术和音乐背景的复合型人才,更懂得人类情感想要表达的好音乐是什么样子,再通过技术创作去呈现更有音乐审美与应用价值的产品。

二、AI技术的突破,正在改变音乐行业

全球音乐市场的规模不容小觑,并持续呈现增长状态。《2024中国音乐产业发展总报告》显示,2023年中国数字音乐产业规模达到893.45亿元,中国网络音乐用户规模达到7.26亿。

事实上,中国市场是AI应用有更多可能性的地方。“相对于美国硅谷巨头,中国AI大模型优势在于更快更低成本实现商业落地”李开复曾在公开场合表示。

从技术和产品的角度来看,国内头部产品和海外产品有着不同的侧重点。

Suno的技术路线则更侧重于音频模型,端到端直接生成完整音乐,这使得生成的作品整体性强,但编辑/分轨较为困难,且在中文区的AI学习和生成能力相对较弱,对国内用户来说有一定门槛。

国内以天谱乐为例,其背后是全球首个多模态音乐生成大模型,集成了图片理解算法、旋律生成算法、视频理解算法、配器识别算法等技术,为了实现这样的的效果,天谱乐大模型在长序列音乐语意建模和高质量音频空间建模方面,完成了技术突破,还原了音乐音频在高维空间的连续信号表征。

相比之下,天谱乐大模型的多模态输入能力更强,它不仅支持文生音乐、音频生音乐,还首创了图片、视频生成音乐功能,是全球第一个尝试的AI产品,比Suno还要早了3个月。用户仅需上传相册中的一张图片或一段不超过60秒的视频,便可以生成曲风丰富、歌词与人声兼备的歌曲。

不同的侧重点,使得Suno和天谱乐所覆盖的用户圈层也有所不同,后者由于在人声方面更具优势,无论是普通用户还是专业人士,都能利用这一功能为Vlog、家庭录像添加背景音乐或创作个性化歌曲,表达情感态度。

在今年WISE大会上,独立音乐人曾翊雄现场演唱了原创歌曲《堵》,天谱乐则根据原歌词进行二创,生成了三首风格各异且质量优良的新歌,这三首AI新歌都具备较高的完成度。天谱乐负责人贾朔在现场表示,对于专业音乐人来说,AI能够帮助他们迅速将自己的创意生成各种风格版本,提高创意验证的效率,来帮助音乐人去完成作品。


每个人都有自己与世界交流的介质,音乐是人类表达情感的载体之一。然而,音乐创作又因门槛较高,而限制了更多人的表达的可能性,因此,AI音乐工具的本质,是通过技术创新降低音乐创作门槛,让用户不再受限于专业的乐理知识,就可以轻松通过音乐创作记录生活的切片,是一种技术平权的追求。

AI音乐技术的突破,也将在科技发展史上留下浓墨重彩的一笔。

三、我们仍需不断寻找AI落地的正确答案

技术的发展带来了新产品、新生态和新的用户习惯,对AI来说,技术成熟只是发展的第一步,体验场景才是落地的关键。

ChatGPT的出现,让AI Agent成为了可能,同时也大幅提升了代码优化、数据提炼、资料检索等工作的效率。那么就AI音乐来说,最先落地应用的领域,可能不是消费音乐,而是游戏、短剧、影视剧等有着大量音乐需求的场景。

比如,在影视与广告等内容行业,AI 音乐能够快速生成定制化音乐,节省制作成本和时间,且可根据具体场景、情节和情感氛围精准创作适配音乐。布乐科技CEO 、知名游戏监制杨晟认为,在艺术创作的过程中,艺术家可以指挥AI,就像指挥一个乐团一样,让作品更好地呈现,这也是整个行业努力的重要方向。

当然,无论是To B还是To C,也无论工具型还是社交型产品,AI大模型都需要找到合适的落地场景,这已经成为行业的普遍共识。

对于大模型的发展,零一万物CEO、创新工场董事长李开复认为,与当年的AI四小龙类似,今天的AI企业需要从大模型起家,打造出可持续的商业模式,并在商业赛道中证明自己能够接受二级市场的考验——即公司必须有收入、在增长且可盈利,才能最终走向成功。

而AI音乐作为其中的重要细分赛道,也已经开始展现其强劲的发展能力。相关报告显示,2023年AI音乐产业已价值3亿美元,预计到2028年可能突破30亿美元,平均每年增长率将达到60%左右。

或许我们仍需不断寻找AI音乐在不同场景中最适配的方式,不断探索技术的极限,解决作品可能涉及的版权、文化冲突等问题,但至少AI带来的创意已经让我们感到惊叹。

“就像AlphaGo击败顶级棋手时棋坛的感受相似,”一名音乐人告诉36氪。“也许未来更加成熟的AI真的会改变音乐乃至更多行业,但我依然相信人和AI是各有分工的。”

来源:格隆汇

相关推荐