游戏版的「西部世界」已然成为现实。
YouTube博主Art from the Machine正式发布Mantella,能够让「上古卷轴5」中的NPC们复活的全新AI Mod。
项目一经发布,在Reddit上掀起轩然大波。
通过ChatGPT、以及文本转语音工具xVASynth、语音识别模型Whisper直接让游戏中AI智能体拥有意识,进行自然对话。
值得一提的是,Mantella Mod支持1000多个NPC,以及20+种语言。
网友纷纷表示,绝对要改变游戏规则。
很多玩家在游戏里打怪升级什么的早就玩腻了。
可以想象,在VR模式下安装了这个Mod后,肯定有玩家就在「上古卷轴」里面找NPC聊天,一聊就是一整天。
升级是不可能升级的,这辈子都不会升级了,打怪什么的又难打。只有找NPC聊天才能打发游戏里的时间。
游戏里的老哥们各个都有自己的故事,说话又好听,超喜欢和NPC们在游戏里聊天的了。
有网友甚至觉得,这个Mod不仅仅是游戏,而是开启了一个人类和计算机交互新时代。
1000+NPC注入「灵魂」
过去的几个月里,Mantella一直在进行公开测试,作者在19日终于发布了这个Mod。
简单来说,这个Mod就是把「上古卷轴5:天际」里边所有的NPC都接入了ChatGPT GPT,让AI帮助原本只会来回移动的NPC真的活过来了。
这1000多个NPC全部都直接能语音互动,而且每个人都有自己独特的背景。
NPC能够记住你和他之前对话的内容,也知道他们自己所处的位置,游戏里的时间,以及玩家在游戏中他看到的操作,比如拾取了什么物品。
NPC的对话内容由ChatGPT生成,而在游戏内的语音实现则由一款名为xVASynth的AI工具实现。
一起看看,NPC们如何与人对话交流。
玩家:这些奶酪多少钱?
NPC:这些奶酪是我们这里的精品,需要10金币。你还有其他需要的吗?
玩家:麦当劳。
NPC:对不起,「上古卷轴」里没有麦当劳。
玩家:我抢走了的你的妻子。
NPC:我不信,我没有结婚,更别说有妻子了,你可能搞错了...
更有趣的是,NPC还会幽默回复你的对话。
NPC:如果你是在暗示,你假设是我的妻子或你没有妻子,我很抱歉听到这个消息。
其实,用AI让游戏角色更加鲜活,英伟达也在攻关。
还记得,老黄在今年的COMPUTEX大会上,推出了全新的定制AI模型代工服务 ——Avatar Cloud Engine (ACE) for Game。
在一个充满「赛博朋克」风格的拉面店场景中,玩家按下一个按钮,可以用自己的声音说话,然后店主Jin会进行回答。
Jin是一个NPC角色,但他的回答是由生成式AI根据玩家的语音输入实时生成的。
Jin还有着逼真的面部动画和声音,全部与玩家的语气和背景故事相符。
这个逼真人物角色的生成,使用了一个实时人工智能模型渲染工具Nvidia ACE。
老黄表示,这个游戏中的角色并没有预先设定。他们有一个典型的任务提供者NPC类型。
背后技术介绍
Mod制作者通过ChatGPT—xVASynth—Whisper,构成了一个「群活」NPC的技术框架。
Whisper能够识别玩家通过麦克风输入的语音内容,并且转化成文字,经由API调用ChatGPT对玩家说的话进行文字回复。
然后再通过xVASynth将ChatGPT生成的文字回复生成符合游戏角色特点的游戏内语音,和玩家直接进行语音交流。
而且整个流程的实现几乎没有成本,为一需要服一点点ChatGPT调用API的费用。大概玩一天需要几美分。
xVASynth
https://www.nexusmods.com/skyrimspecialedition/mods/44184
他可以根据游戏中某一个声音,来生成符合这个声音的游戏NPC配音台词。
xVASynth使用神经语音合成(Neural Speech Synthesis)来专门生成游戏中的NPC的语音对话。它是基于一个根据游戏中的角色语音数据单独训练的模型。
支持从文本到语音的转换(TTS)或者音频直接输入进行语音转换(V/C)。
通过这个工具,用户只要提供一小段特定的声音素材作为模板,就能使用文字来直接生成和模板风格一致的语音内容。
Mentella就是采用了ChatGPT生成NPC对话内容+xVASynth转化为游戏内语音的框架完成的。
xVASynth针对文字的语音转换,能让用户可以控制语音的很多细节,例如单个字母的音高和持续时间、能量、情感和风格,来突出角色所要表达的情绪和重点。
神经语音合成技术的使用可以让它产生自然的声音,现有数据串联的传统方法很难做到这一点。这也意味着可以在配音演员已经读出的内容之外生成全新的语音内容。
这样生成的语音就不会是一段「机里机气」的AI转述音频了,能让NPC的真实感和游戏玩家的沉浸感大大加强。
更吊的是它可以支持28种语言,并且可以使用同一文本提示在多种语言之间切换输出。大大方便了游戏制作者进行多语言版本的制作。
为了方便用户处理游戏中成千上万个不同的游戏语音,它还内建了一个3D语音嵌入可视化工具。
这个3D可视化UI也是由AI生成的,用户可以按游戏的NPC的属性对语音进行上色,比如性别,职业等等,让用户摆脱了传统通过时间轴来控制语音的方式。
现在xVASynth也已经上架Steam,可以让游戏开发者和玩家免费使用大部分功能。
Whisper
而为了完成语音交互,NPC除了自己发音,还必须要能识别玩家和他们的语音交流。
Mod开发者使用的是由OpenAI发布的语音转文字AI工具:Whisper。
OpenAI通过网络收集了超过68万小时的多语言和多任务监督数据训练出了Whisper。
使用如此庞大且多样化的数据集使得Whisper对口音、背景噪音和专有名词有非常强的适应能力。此外,还可以进行多种语言的转录和翻译。
Whisper采用的是一种简单的端到端的构架,通过Transformer编码器-Transformer解码器的形式实现语音的识别。
输入音频被分成 30 秒的块,转换为梅尔频谱图,然后传递到编码器。
解码器经过训练来预测相应的文本内容,并与特殊标记混合在一起,指示单个模型来执行语言识别、多语言语音转录和英语语音翻译等任务。
网友热议
试过之后网友表示非常好,语音恰到好处,一点不违和,沉浸感爆棚。
也许是《上古卷轴》历史上最厉害的Mod!
这个网友跟了这个Mod很长时间,认为这个Mod直接让《上古卷轴:天际》变了一个游戏,未来也许所有游戏的交互方式都会发生改变。
等不及要马上爽一把了!
参考资料:
https://www.reddit.com/r/singularity/comments/15vgk38/mantella_mod_bring_skyrim_npcs_to_life_using_ai/
https://www.nexusmods.com/skyrimspecialedition/mods/98631