文字生成音乐!Meta刚刚发布了“音乐界的ChatGPT”,还是“开源的”!

练习时长两年半,MusicGen打败了谷歌MusicLM?

从AI孙燕姿到MusicGen,从演唱到创作,AI已经全面入侵音乐领域。

近日,Meta在Github上开源了AI模型MusicGen,引发外界关注。

顾名思义,MusicGen是有一个音乐生成AI模型,可以根据文本和旋律提示创作音乐。

该模型基于谷歌2017年推出的Transformer模型,并采用Meta的EnCodec编译器将音频数据分解为小单元处理。

上周晚些时候,Meta人工智能研究工程师Felix Kreuk在Twitter上展示了MusicGen的功能。

在视频演示中,MusicGen分别将两个古典音乐片段改编成80年代的流行音乐和现代嘻哈音乐,它还根据提示加入了乐器、电子音等元素。

根据Meta的介绍,MusicGen接受了20000小时的音乐训练,相当于人不吃不喝不睡觉训练833天。

该模型还使用了来自媒体内容服务商ShutterStock和Pond5 10000首“高质量”授权音乐和390000首纯音乐。

那么,练习时长两年半的MusicGen,够格出道吗?

Meta自己将MusicGen与市面上已有的音乐创作软件MusicLM(谷歌旗下)、Riffusion以及Mousai进行了比较。

对此,华尔街见闻挑选了其中三个例子:

提示1. 创作一首流行舞曲,要求旋律朗朗上口,加入热带打击乐因素,节奏欢快,适合沙滩场景。

提示2. 编一首气势宏伟的管线交响乐曲,加入雷鸣般的打击乐器、有史诗感的铜管乐和高昂的弦乐,创造一个适合英雄战斗的电影背景音乐。

提示3. 创作一首经典雷鬼音乐,加入电吉他独奏。

不难听出,MusicGen的表现似乎更加惊艳。

据Meta称,无论在与文本的匹配度上,还是在作曲的可信度上,MusicGen在四者之间的表现都更胜一筹。

为了验证MusicGen是不是真有那么好,科技媒体Techcrunch记者Kyle Wiggers亲身试用了MusicGen和MusicLM,对比两位AI音乐家的作品。

先说他的结论:

我得说,(MusicGen )还不至于让人类音乐家丢了工作,但它创作的音乐相当优美,至少对于“环境音乐”这样的基本提示语来说是这样,而且在我听来,它与谷歌的AI音乐生成器MusicLM相比,不分伯仲(如果不是稍微好一点的话)。

Wiggers先是抛出了一个简单的提示语:爵士、电梯音乐。

MusicGen和MusicLM拿出了以下作品:

MusicGen

然后,Wiggers增加考试难度,AI创作一首低保真、慢节奏的Electro Chill(一种融合了电子音乐和放松氛围的音乐风格)音乐,要求使用自然、真实的声音。

两大模型作品如下:

对于第二个提示,Wiggers发现,MusicGen在音乐连贯性方面出人意料地胜过MusicLM,其作品很容易在YouTube上的一个音乐全天直播频道Lofi Girl上找到来源。

最后,Wiggers尝试让MusicGen和MusicLM创作具有知名作曲家George Gershwin风格的钢琴小曲。

他发现,谷歌在MusicLM的公开版本中嵌入了一个过滤器,阻止用户提示特定艺术家,以保护作者版权。

相比之下,MusicGen就没有这样的过滤器,最终创作出了所谓George Gershwin风格的钢琴曲。

但在Wiggers看来,这首曲子并没有那么好。

值得一提的是,目前市面上存在许多文本、语音、图片甚至是视频生成模型,但优质的音乐生成模型少之又少。

根据在线科学预印本存储库arXiv中找到的研究文件,音乐生成的主要挑战之一是需要运行全频谱,这需要更密集的采样,更不用说复刻音乐的复杂结构和乐器的配合了。

MusicGen能否成为一款优秀的音乐生成模型,还有待更多用户的验证。

用户可以通过Hugging Face的API体验MusicGen,但生成音乐可能需要一些时间,具体取决于同时在线的用户数量。

目前,Meta尚未提供用于训练模型的代码,但提供了预训练模型。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。