任何人都可以克隆任何人的声音,并以几乎任何语言说话!AI“深度造假”能力

硬AI
不仅音色、语气以假乱真,就连对口型也几乎毫无破绽。

作者:卜淑情

编辑:硬AI

AI的造假能力强到什么程度?

近日,美国前总统特朗普及奥巴马、俄罗斯总统普京及前总统叶利钦、特斯拉首席执行官马斯克以及C罗的AI合成视频在X(前身为Twitter)和Reddit等社交平台上被观看了数千次。

在马斯克的视频中,“他”用法语接受了媒体采访,阐述他对于AI威胁的看法。

不仅音色、语气以假乱真,就连对口型也几乎毫无破绽。

这就是最近爆火的“深度造假”(Deepfake)技术,不仅可以克隆声音,精通几乎所有语言,而且还可以匹配口型。

专门从事“深度造假”的DeepMedia创始人Rijul Gupta表示:

我们基本上已经达到了这样的程度:任何人都可以克隆任何人的声音,并通过5秒的音频素材,使其以几乎任何语言说话。

目前,市面上已经出现几款通过“深度造假”技术进行视频语音翻译和口型同步的应用程序。

LipDub:风投心头好

LipDub是一款视频语音翻译+口型同步的移动APP,用户能在几分钟内“用外语交流”,早些时候在App Store上线。

LipDub的核心技术是AI,它能够准确识别视频中的语音,使用GPT-4将其翻译成其他语言,并使用“ zero-shot model(零样本模型)”算法,将翻译后的语音与视频人物的口型进行匹配。

使用过程简单粗暴:上传一段视频、选择目标语言、获得带有新语音和口型同步的翻译视频。整个过程仅需要几分钟的时间。

LipDub目前支持28种语言,包括韩语、西班牙语、捷克语、泰米尔语和乌克兰语。

LipDub由初创公司Captions出品。该公司成立于2021年,由Snap前设计工程主管Gaurav Misra和Dwight Churchill联合创立,目标是生成式AI翻译工具市场。

Captions早期获得了红杉资本、Andreessen Horowitz等知名风投的投资,并得到了Instagram联合创始人Kevin Systrom和Mike Krieger以及Facebook前产品设计副总裁Julie Zhuo的支持。

截至目前,Captions拥有10万日活用户,Misra预计LipDub也能吸引同样多的用户。

据悉,LipDub下一阶段的目标是更流畅的翻译和逼真自然的口型同步。

Misra说:

下一步是让视频看起来更加自然——真正做出一段视频,你根本感觉不到里面有配音或处理,非常自然和易懂。

这种技术过去我们只在《星际迷航》这类作品里看到,对吧?简直是硬核科幻啊。

这样的前景使Captions在今年6月份获得了2500万美元的B轮融资,由硅谷传奇投资公司凯鹏华盈(Kleiner Perkins)领投。

值得注意的是,LipDub所代表的视频AI翻译技术,也引发了业界对“深度造假”的担忧,存在被滥用于虚假新闻及其他不正当用途的风险。

当前,LipDub作为视频AI翻译的头部玩家,处于快速迭代阶段,其核心技术还有很大改进空间。同类竞品也在蜂拥而至,竞争激烈。

HeyGen:致力于消除语言障碍

HeyGen,AI口型同步和短视频内容翻译领域的另一个大玩家,该公司在9月7日推出视频翻译功能后在X上迅速走红,目前拥有数百万用户。

有用户曾使用HeyGen制作了马斯克、梅西和扎克伯格用多种外语讲话的片段。

HeyGen联合创始人兼首席执行官Joshua Xu表示,其目标是“消除语言障碍”。

我们设想未来用不同语言制作视频内容和传播信息将变得像打字一样简单。

HeyGen看中了全球视频翻译的巨大市场。Xu曾在X上发表一个AI生成视频中说:

想想看,消除语言障碍使内容对全球用户可用,而不仅仅10%的英语使用者。

他还表示,像Coursera、Khan Academy 和MasterClass等教育平台可以通过“多语言化”来扩大其影响力。

HeyGen目前支持10种输入语言和8种输出语言,包括英语、西班牙语、中文、意大利语、印地语和日语等。

HeyGen前身是一个名叫Movio的AI视频翻译平台。该平台基于内容生成引擎Surreal Engine,于2022年7月推出,仅7个月内就获得了100万美元的年经常性收入。

Xu与前字节跳动和美国社交媒体音乐公司Smule工程师 Wayne Liang于2020年创立了Surreal。

Surreal专注制作逼真的“深度造假“视频,主要面向电商广告客户。Surreal在深圳启动运营4个月后,便完成了100万美元天使融资。

去年4月,Xu将Movio更名为HeyGen。自 2020 年以来,HeyGen和Surreal已从红杉资本、IDG 资本、真格基金和百度风投获得至少900万美元的资金。

时至今日,Surreal在中国仍然活跃,但HeyGen主要在美国洛杉矶运营。

Verbalate:支持30分钟视频处理

视线转向澳洲,还有一个不可忽视的AI视频翻译平台——Verbalate。

它和LipDub 和HeyGen一样,将用户的视频配音成目标语言,不同之处在于,Verbalate可处理长达30分钟的视频。

Verbalate创始人Grant Davies,成立该平台最初的想法是出于疫情期间澳大利亚封锁期间的无聊。

2022年,Davies在骑车时听Joe Rogan的播客,知道YouTuber用户MrBeast使用配音演员翻译视频。当时Davies正在研究AI,觉得可以用AI做自动翻译。

据悉,Verbalate的基础订阅月费为9美元,可以制作一个10分钟视频,相比之下,竞争对手HeyGen的月费为29美元,可制作多个5分钟视频。

LipDub AI:瞄准影视配音

有些平台则瞄准了于更大的市场和更长的视频运行时间。

加拿大公司MARZ的LipDub AI平台(不要与Captions 的LipDub混淆)面向电影电视行业,提供高质量的配音翻译视频。

目前LipDub AI处理一分钟包含多个镜头的视频片段所需的运行时间不到20分钟。

该公司目前依赖训练素材(例如视频片段)来制作这些配音,但它预计将在一年内加快这一过程,仅依靠音频和原始片段制作配音。

LipDub AI平台的视频处理速度正在提升,预计可以仅依靠音频就生成配音视频。

与其他口型配音平台不同,LipDub AI没有采用外部大型语言模型,而是使用自己的生成模型,该模型通过录音进行训练。

MARZ市场总监Tim Reyes认为,口型匹配技术将帮助制片人扩大电影或电视节目的影响力,同时又不会危及演员的工作保障。

Reyes表示: LipDub AI 实际上为新市场开辟了一大堆机会,这不像其他一些人工智能技术,他们破坏了电影业目前的工作流程。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。