OpenAI再陷巨大争议？Sora训练数据被质疑非法，CTO采访疯狂翻车

新智元

2024/03/16 14:07

最近，OpenAI CTO Murati接受采访时，对Sora训练数据语焉不详、支支吾吾的表现，已经成了全网热议的话题。毕竟，要是一个处理不好，OpenAI就又要陷入巨额赔偿金的诉讼之中了。

最近，OpenAI CTO在采访中大翻车的表现，已经在网上掀起了轩然大波。Sora再陷版权争议！

前几天Murati接受华尔街日报采访时，被问及Sora训练数据的这段视频，已经在全网爆火，引起网友热议。

准备好，WSJ女记者要放大招了——「Sora是用什么数据训练的？」

Murati接下来的表现，十分值得玩味。

她眨了数次眼睛，目光闪烁，思考几秒之后略带迟疑地给出了一个官方味十足的答案——

「我们使用的是公开可用的数据，以及经过许可的数据。」

记者继续出招：「所以，你们是用了YouTube上的视频吗？」

Murati的反应亮了。她撇了撇嘴，眼神茫然地望向空中，犹豫了几秒后只得承认——

「关于这个情况，我不太确定。」

记者步步紧逼：「那Facebook和Instagram上的视频呢？」

Murati的表情仿佛已经在崩溃的边缘——

「你知道，如果这些数据可以公开使用……对……可以公开使用的话……可能是用了这些数据，但我不确定，真的不太确定。」然后她无奈地伸开双手，表示差不多得了。

但记者还在发问：「Shutterstock呢？我知道你们公司和他们有合作。」 Murati摇了摇头，表示，「关于使用数据的细节，我是不会详细说的，但我们用的数据肯定是公开的，或者许可使用的。」

仓促上阵的Murati肯定没想到，记者会准备得如此充分，让她几乎直接掉在坑里。如果处理不够得当，OpenAI极有可能会继续吃官司。

有人预言：Murati的反应绝对会被做成表情包，全网热转。

完整视频如下：

训练AI模型数据所面临的巨大版权争议，是这一年多全球相关人士讨论最多的话题。

如今，ChatGPT让OpenAI的估值暴涨到了800亿美元；而Sora又几乎要颠覆动辄上百亿票房的好莱坞影视行业。

然而这些收益却进了OpenAI的腰包，而做出关键贡献的数据所有者，却分文无收，甚至反而被掀了饭碗。

网友：她的微表情在说谎

这段采访的视频一出，业内人士和网友都震惊了。有网友锐评道，这个采访看起来很愚蠢，整个对话仿佛是下面这个样子——

你是坏人吗？不是。你是坏人吧？呃……不是吧？不是。你到底是坏人吗? 听着，我不是坏人。

还有网友展开了微表情分析，认为Murati很有可能是在说谎。

科技专栏作家Brian Merchant批评道，Murati的表现「要么是对自己公司的产品惊人的无知，要么就是在谎言——无论哪种可能，都非常可怕！」

的确，对于一个AI公司CTO来说，她的表现是完全不合格的。

那么问题来了，如果是后一种可能，Murati为什么要撒谎呢？如果她意识到自己需要撒谎来掩盖某些事实，那就说明，她心里明白OpenAI的做法是在违法的边缘试探。

而在未来，当OpenAI被法官问话时，这很可能就会给OpenAI埋下一个大坑。

「看起来，OpenAI要面临一场大型诉讼了」目前，OpenAI正面临着好几场由作家和纽约时报发起的诉讼，后者声称，他们受版权保护的作品未经许可，就被OpenAI用来训练ChatGPT等模型。与此同时，外媒纷纷发表文章，嘲讽Murati在采访中表现出的样子太不专业。

CTO的这个表现，对官司缠身的OpenAI可真不算个好消息。如果CTO都无法坚定地回答，现在公司旗下最热门新模型的训练数据来自哪里，那也就证明了，OpenAI高层甚至对这个问题根本就没关注。

据WSJ报道，在采访结束后，Murati证实，Shutterstock上的视频确实包含在Sora的训练集中。

不过，网上有海量的视频内容，OpenAI从Shutterstock得到的，恐怕也只是Sora训练数据池中的一小滴水而已。

其实，这件事情之所以能引起轩然大波，也是因为它直接指向了问题的本质——在公共领域的数据，所属权到底属于个人，还是完全共有？

从前，数据飞轮还没能给LLM加速到日进斗金的程度时，这个问题没有放到台面上讨论过。而现在，它背后代表了巨大的利益。

也有一些人为Murati和OpenAI辩护。

他们认为，既然你把东西发到了网上，就应该默认它属于公共资产。如果你不想公开，那就应该让它们保持私密。

也就是说，一旦事情在公共场合发生，它就属于整个人类。

这么说来，我们在往网上发东西时，都得时刻小心翼翼了。

一家价值数十亿美元的AI公司，很可能会把你随手拍的家人朋友的视频，用作生成式AI模型的养料，获得惊人的利润。

对于这个数据监管的争议，斯坦福教授Christopher Manning表示，目前最合适的AI监管办法之一，就是要求模型厂商记录下他们使用过的所有训练数据。

欧洲议会刚刚通过的AI法案，也同样强调了这一点。

Sora最新一波演示出炉！

虽然在之前的采访里已经提到，Sora生成的视频还有很多bug，但这些不断被放出的演示，依然在不断惊艳世人。

比如瓷器店里的公牛。

扛着摄像机的女记者忽然变成了机器人。（x

‍ ‍拿着手机的小美人鱼，旁边是她的蟹助手。

还拉着Runway对比了一波，生成两个镜头前的女记者。

Sora还在不断掀起飓风

其实，Sora的传奇故事，才刚刚揭开序幕。一个月前，曾给《死侍2》做特效的44岁视觉艺术家Greg Pilon，突然感觉：自己的行业似乎面临着末日的钟声。他见到Sora的第一眼，就有这种强烈的感觉。无人机拍摄的海岸、一个男人在巴黎咖啡馆深沉地思考人生的画面、一个在迪斯科舞厅跳舞的袋鼠……这些惊艳的场景也令他恐惧。