Meta 周三推出了名为 AudioCraft 的开源人工智能工具,该工具将帮助用户根据文本提示创建音乐和音频。它允许用户完全通过生成式 AI 创作音乐和声音。
Meta 表示,该人工智能工具捆绑了 AudioGen、EnCodec 和 MusicGen 三个模型,适用于音乐、声音、压缩和生成。它补充说,MusicGen 使用公司拥有且专门授权的音乐进行培训。
三个 AI 模型分别处理声音生成的不同领域。MusicGen 通过文本输入生成音乐。该模型是在「Meta 拥有或专门用于此目的授权的 2 万个小时的音乐」上进行训练的。AudioGen 根据文本提示创建声音效果,如狗叫声或脚步声,它是在公共音效上进行训练的。Meta 改进了 EnCodec 解码器的版本,可以使用户使用较少的伪影来创建声音——当你过多操纵音频时会产生伪影。
艺术家和行业专家对侵犯版权提出了担忧,因为机器学习软件通过识别和复制从网络上抓取的数据中的模式来工作。
Meta 公司让媒体们听了一些使用 AudioCraft 制作的示例音频。口哨声、警笛声和嗡嗡声听起来非常自然。尽管歌曲中的吉他琴弦感觉很真实,但它们仍然感觉有点不自然。
Meta 只是最新处理音乐和 AI 结合的公司之一。今年早些时候,谷歌推出了 MusicLM,这是一个大型语言模型,可以根据文本提示生成几分钟的音乐,只对研究人员开放。然后,一首名为「AI 生成」的歌曲在得到病毒传播后被下架,这首歌曲中有 Drake 和 The Weeknd 的声音。最近,一些音乐家,比如 Grimes,鼓励人们在 AI 创作的歌曲中使用自己的声音。
然而,音乐家们一直在尝试电子音频很长一段时间了;电子舞曲和像 Ultra 这样的音乐节并不是凭空出现的。但是由计算机生成的音乐经常听起来像是从现有音频中处理出来的。AudioCraft 和其他生成式 AI 生成的音乐完全是根据文本和大量的声音数据生成的。
目前,AudioCraft 听起来更像是可以用作电梯音乐或背景歌曲,可以为环境增添氛围,而不是下一个流行热曲。然而,Meta 相信他们的新模型可以像合成器一样开创一波新的流行歌曲潮流,以及合成器在成为流行后如何改变了音乐。
「我们认为 MusicGen 可以变成一种新型乐器——就像合成器首次出现时一样」,该公司在博客中表示。Meta 承认,创建能够创作音乐的 AI 模型的困难,因为音频通常包含数百万个离散点,而不仅仅是像 Llama 2 这样的文本模型,只包含数千个点。
该公司表示,为了使其训练数据的多样性更加丰富,AudioCraft 需要进行开源。
「我们认识到,用于训练我们的模型的数据集缺乏多样性。尤其是用于训练的音乐数据集中,更多是西方风格的音乐,只包含以英文编写的音频文本对和元数据」,Meta 表示。「通过分享 AudioCraft 的代码,我们希望其他研究人员能够更容易地测试限制或消除生成模型中潜在偏见和误用的新方法」。
AudioCraft 开源模型 Gthub 页面:
https://github.com/facebookresearch/audiocraft
评论列表 (条)