音乐界Sora上线：AI音乐的GPT时刻到来了吗？-虎嗅网

本文来自微信公众号：APPSO（ID：appsolution），作者：张成晨，题图来自：视觉中国

文章摘要

本文介绍了音乐界的AI音乐生成工具Udio，与前辈Suno相比，Udio在人声清晰度和曲风既视感方面更胜一筹。然而，当前所有的AI音乐仍存在耳朵和大脑不耐受的问题。虽然Udio有一定潜力，但它的生成效果仍不够完美。同时，Udio也面临着版权争议等问题。

• 👍Udio在人声清晰度和曲风既视感方面表现优秀。

• 😕当前所有的AI音乐对于长时间的听觉体验来说存在耳朵和大脑不耐受的问题。

• ⚠️Udio面临着版权争议以及生成效果不完美等问题。

Suno 爆火之后，又一个音乐界 ChatGPT 来了：Udio。

它由前 Google DeepMind 工程师开发，被硅谷知名风投 a16z、Instagram 创始人看好。

虽有爆款之相，但产品本身才能决定，Udio 可否在前辈的开荒后，再留下自己的痕迹。

体验下来发现，Udio 的缺点和优点都很明显，和 Suno 各有所长。同时，目前所有的 AI 音乐都是初听还行，听多了便会出现耳朵和大脑不耐受的情况。

人声更清晰的赛博点唱机

先看看 Udio 官方精挑细选的作品，直观感受好不好听。

乍一听，AI 擅长的音乐体裁挺多，很适合给团建和蹦迪热场，但留不下什么深刻印象。

反而是网友们的自发创作更有意思。从目前的热门作品来看，相比 Suno，Udio 有两个特点：一是人声更加清晰，二是曲风的既视感更强，总感觉在哪里听过。

以下这首把竞争对手 Suno 唱进词里的复古歌曲，女声比 Suno 更清晰，机器味也更少。

《复古女声》

百老汇音乐剧版沙丘则靠创意取胜，合唱团赞美由甜茶饰演的主角保罗，融合了青少年流行、音乐剧旋律以及摇滚元素。

百老汇音乐剧《沙丘》

Udio 甚至还能模仿迪士尼歌舞片的风格，仿佛《美女与野兽》的贝儿、《阿拉丁》的茉莉公主、《冰雪奇缘》的艾莎在耳边歌唱。

迪士尼歌舞片风格

‍

Udio 自己也以人声为傲，表示 AI 会很多唱法，把高亢福音、沙哑蓝调、梦幻流行、丝滑说唱一网打尽。

至于体裁和曲风方面，比较出乎意料的是，Udio 擅长古典，以下这首《C 大调快板合奏》和巴赫的勃兰登堡协奏曲非常相似。

《C 大调快板合奏》

按照 Udio 的规定，它和 Suno 一样，不支持用某个艺术家的声音生成歌曲。不过，Udio 可以用艺术家的风格作为提示词，比如“贝多芬”。甚至有网友叫嚣，如今自己也能成为古典作曲家了。

乡村音乐也是 Udio 的舒适区，《Highway Lasts》这首，有些泰勒·斯威夫特早期专辑的味道，甚至音色和唱腔也莫名形似。

《Highway Lasts》

官方表示，Udio 擅长的流派和风格有很多，如电子舞曲、钢琴爵士、新灵魂乐、极端金属，也精通多种语言，支持生成日本流行乐、宝莱坞音乐、俄罗斯梦幻流行音乐。

凡事不能光看说了的，也要挖掘被隐藏的。Udio 没有提及中文，可能是有意藏拙。

果然，让 Udio 唱中文歌，有种霸王硬上弓的感觉，咬字不清晰又错误频出，发音有点像塑料粤语，不知道是不是拿港台歌训练的 AI，且素材不是很够。

要不是我亲手输入了苏轼《定风波》的“竹杖芒鞋轻胜马......”，根本听不懂女声在唱什么。

《定风波》

让 AI 自动生成中文歌词更是灾难，时不时夹杂英语，且没有什么韵味。

Udio 生成的歌词.

生成十几遍才有一首咬字基本清晰的中文歌曲之后，我也变得佛系了。难听，不想再听，呕哑嘲哳难为听，但好不好听已经没法苛求。勉强宽慰自己，唱得还挺响亮和精神。

新手友好的开盲盒

Udio目前发布的是免费测试版，注册账号之后，每个人每月最多可以生成 1200 首歌曲，按照理想情况，40 秒内就能生成一首。

看着比 Suno 每天 50 个积分大气多了，然而官网挤爆了，服务器又不稳定，我的第一首歌三个多小时都没生成完毕，再登上去查看居然原地消失，只能重新输入提示词，之后的节奏倒是很快，基本在 2 分钟内就能生成。

而且，Udio 创作的片段，默认为 30 多秒，相比 Suno 的 2 分钟，算是大打折扣。

这些是基础设施和基本设定的问题，Udio 也有做得优秀的地方。

和 Suno 类似，Udio 的创作界面非常直观，输入提示词，点击生成，等待 AI 创作完毕。也与 Suno 一样，Udio 通过 API 调用 ChatGPT 编写歌词。

除了让 AI 自由发挥，Udio 也可以更加定制化，让你输入自己的歌词，添加具体的流派标签，选择生成纯音乐，或者包含歌词和人声的歌曲。

同时 Udio 不闲着，起到一个助手的作用，不断地给你提建议，更加新手友好。

一方面，Udio 提醒你怎么让歌词的效果更好，建议你加一些额外的标签，比如[Verse]（主歌）、[chorus]（副歌），让 AI 更好地理解歌曲的基本架构。

这点其实也写在 Suno 的社区指南里，但初次尝试的新手不一定明白，Udio 把建议写在了输入框旁边，背后原因令人暖心。

另一方面，按照你的提示词，Udio 会建议添加一些流派的标签，比如当我想要生成中国风的音乐，Udio 建议添加“traditional pop”。

Udio 还有一个手动模式（manual mode），一般来说，Udio 会改写我们的提示词，提高生成的质量。

但在这种模式下，Udio 不会做中间商，而是让你原汁原味地和模型交互，应该更适合那些本身就有音乐底子的创作人。

生成之后，Udio 还支持再加工，让你扩展音轨的长度，添加[Intro]（前奏）、[Outro]（尾奏）等部分，让作品更加完整。

这个细节 Udio 也比 Suno 做得细致，之前体验 Suno 时，我不知道可以在最前面写上[Intro]（前奏），导致生成的歌曲一开始就是人声，不太符合日常听歌的习惯。

就算 Udio 的界面做得简单，但所谓“创作”的过程，还是个开盲盒的过程，并且出错概率体感比 Suno 要多，很容易让人垂头丧气。

如果你对生成的效果不满意，不如玩玩 Udio 的随机提示词，比如“一首关于抢劫失败的合成流行音乐”“一首关于与时间赛跑的拉丁歌曲”“一首关于期待久别重逢的电子舞曲”。

抱着降低期待的心理，我们就不必将 AI 当作精准的创作工具。

如果我们在聚会、团建等场景需要歌曲调动一下氛围，那基本就够用了。这是普通音乐爱好者的赦免权，我们不必创作伟大的音乐，但可以多玩，看能不能生成自己喜欢的音乐。

允许 AI“创作”新的音乐

虽然 Udio 在 4 月 10 日才对外官宣，但这是一场事先张扬的发布，之前就有音乐泄露在 X，引起外界的关注和猜测。

类比是人类的习惯。“音乐界 ChatGPT”的名号已经被 Suno 用了，因为 Udio 可以根据文本提示，快速生成包含人声的完整音轨，支持多种风格和流派，也领了一个互联网称号：“音乐界 Sora”。

预热完了，Udio 终于露出庐山真面目，创始团队里有 4 位是 Google DeepMind 前员工。

和 Suno 一样，Udio 也是希望音乐创作更大众化，同时服务于音乐家，让创作和分享音乐更简单，让想象力变现的门槛更低。

文字、图片、音频、视频，现在的我们其实已经见过了 AI 的各种文本生成。

在 Udio 团队看来，从文本生成一首完整的歌曲，最有魔法的感觉，是个“wow event”（哇哦时刻）。

这是因为，音乐是我们更投入情感、也更愿意花时间消费的领域。

Udio 的目标不仅是拥有一个创作音乐的工具，还要搭建一个围绕它的、所有人都能参与的社区。当工具可以让人更轻松地创作时，人们就会成为创造者和消费者的混合体。

Suno 首页.

跟随 Suno 的脚步，Udio 的页面也向音乐软件看齐了，有编辑精选、流行趋势、热门类别、热门曲目等栏目分类。

Udio 首页.

但从直观的听感来说，文生音乐的 AI 工具们都还不够好。它们无法让人忘记，这是机器制作的音乐，一旦听久了，必须停下来缓缓，要不然便是头昏脑胀。

当然，初出茅庐的 Udio 还只是 v1 模型，Suno 也只是 v3 版本，进步的空间都很大。

未来，Udio 的改进方向是，让 AI 更加可控，服务于音乐人，包括导入外部曲目、添加参考人声和更加精细的创作选项。

体验 Suno 时，我们讨论过“创作的幻觉”，音乐被简化成了提示词的游戏，我们的主动权有限，也不能说自己“创作”了音乐。

Udio 给人的感觉也是如此，我们以普通人的角度体验，乐趣只是暂时的，对音乐人的敬意反而更深。

与此同时，AI 音乐生成工具可能陷入和绘画一样的版权争议，侵害音乐人的权益。就在最近，碧梨、水果姐等数百名音乐人联名呼吁，不要用 AI 取代人类艺术家。

《滚石》杂志发现，Udio 可能生成和已故歌手汤姆·佩蒂很相似的音色。Udio 回应，他们内置了一个过滤器，避免生成的声音和真人音乐家相似，但不是百分百奏效。

然而，他们没有正面回答，为什么会出现这样的情况，更没有说清楚，训练数据是什么，有没有拿受版权保护的音乐训练。

回避了版权问题的 Udio，选择以另一个角度升华工具的意义：AI 的产出本身是“变革性的”。换句话说，模型正在从训练数据中创造出新的东西。

Udio 解释，他们的目标不是复制披头士这样的伟大乐队，与其复制，不如直接听披头士。他们所做的，是让 AI 理解音乐的基础，然后创作新的音乐，既受到已有作品的启发，又完全新颖。

言下之意，不原模原样地反刍，就是创新。更多的人参与创作，就是创新。某种程度上，ChatGPT 已经实现这一点了，它可以为作家、艺术家所用，也融入我们的工作流里。

如果 AI 生成音乐的质量变得越来越好、并且越来越可控，它的“创新”能否被大多数人认同？这一切只能交给时间作答，到时候，AI 音乐的 GPT 时刻或许才真的到来。

Udio官网：https://www.udio.com/

本文来自微信公众号：APPSO（ID：appsolution），作者：张成晨

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

最新评论

大 家 都 在 看

大 家 都 在 搜

大家都在看

大家都在搜