文字生成音乐！Meta刚刚发布了“音乐界的ChatGPT”，还是“开源的”！

2023/06/13 14:31

练习时长两年半，MusicGen打败了谷歌MusicLM？

从AI孙燕姿到MusicGen，从演唱到创作，AI已经全面入侵音乐领域。

近日，Meta在Github上开源了AI模型MusicGen，引发外界关注。

顾名思义，MusicGen是有一个音乐生成AI模型，可以根据文本和旋律提示创作音乐。

该模型基于谷歌2017年推出的Transformer模型，并采用Meta的EnCodec编译器将音频数据分解为小单元处理。

上周晚些时候，Meta人工智能研究工程师Felix Kreuk在Twitter上展示了MusicGen的功能。

在视频演示中，MusicGen分别将两个古典音乐片段改编成80年代的流行音乐和现代嘻哈音乐，它还根据提示加入了乐器、电子音等元素。

根据Meta的介绍，MusicGen接受了20000小时的音乐训练，相当于人不吃不喝不睡觉训练833天。

该模型还使用了来自媒体内容服务商ShutterStock和Pond5 10000首“高质量”授权音乐和390000首纯音乐。

那么，练习时长两年半的MusicGen，够格出道吗？

Meta自己将MusicGen与市面上已有的音乐创作软件MusicLM（谷歌旗下）、Riffusion以及Mousai进行了比较。

对此，华尔街见闻挑选了其中三个例子：

提示1. 创作一首流行舞曲，要求旋律朗朗上口，加入热带打击乐因素，节奏欢快，适合沙滩场景。

提示2. 编一首气势宏伟的管线交响乐曲，加入雷鸣般的打击乐器、有史诗感的铜管乐和高昂的弦乐，创造一个适合英雄战斗的电影背景音乐。

提示3. 创作一首经典雷鬼音乐，加入电吉他独奏。

不难听出，MusicGen的表现似乎更加惊艳。

据Meta称，无论在与文本的匹配度上，还是在作曲的可信度上，MusicGen在四者之间的表现都更胜一筹。

为了验证MusicGen是不是真有那么好，科技媒体Techcrunch记者Kyle Wiggers亲身试用了MusicGen和MusicLM，对比两位AI音乐家的作品。

先说他的结论：

我得说，（MusicGen ）还不至于让人类音乐家丢了工作，但它创作的音乐相当优美，至少对于“环境音乐”这样的基本提示语来说是这样，而且在我听来，它与谷歌的AI音乐生成器MusicLM相比，不分伯仲（如果不是稍微好一点的话）。

Wiggers先是抛出了一个简单的提示语：爵士、电梯音乐。

MusicGen和MusicLM拿出了以下作品：

MusicGen

然后，Wiggers增加考试难度，让AI创作一首低保真、慢节奏的Electro Chill（一种融合了电子音乐和放松氛围的音乐风格）音乐，要求使用自然、真实的声音。

两大模型作品如下：

对于第二个提示，Wiggers发现，MusicGen在音乐连贯性方面出人意料地胜过MusicLM，其作品很容易在YouTube上的一个音乐全天直播频道Lofi Girl上找到来源。

最后，Wiggers尝试让MusicGen和MusicLM创作具有知名作曲家George Gershwin风格的钢琴小曲。

他发现，谷歌在MusicLM的公开版本中嵌入了一个过滤器，阻止用户提示特定艺术家，以保护作者版权。

相比之下，MusicGen就没有这样的过滤器，最终创作出了所谓George Gershwin风格的钢琴曲。

但在Wiggers看来，这首曲子并没有那么好。

值得一提的是，目前市面上存在许多文本、语音、图片甚至是视频生成模型，但优质的音乐生成模型少之又少。

根据在线科学预印本存储库arXiv中找到的研究文件，音乐生成的主要挑战之一是需要运行全频谱，这需要更密集的采样，更不用说复刻音乐的复杂结构和乐器的配合了。

MusicGen能否成为一款优秀的音乐生成模型，还有待更多用户的验证。

用户可以通过Hugging Face的API体验MusicGen，但生成音乐可能需要一些时间，具体取决于同时在线的用户数量。

目前，Meta尚未提供用于训练模型的代码，但提供了预训练模型。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

相关文章