YouTube CEO警告OpenAI：用YouTube视频训练Sora违规

硬AI

2024/04/05 09:14

他同时表示：“我承认谷歌的Gemini模型部分使用了YouTube上的一些内容，但是它是提前获得了创作者适当授权。”

来源：硬AI

作者：房家瑶

YouTube CEO警告称，若OpenAI使用YouTube视频训练Sora将违反服务条款。

在北京时间4月5日凌晨的一次采访中，YouTube的首席执行官Neal Mohan首次公开表示，虽然他没有直接证据证明OpenAI利用了YouTube视频来改进其AI视频创作工具Sora，但如果事实确实如此，那OpenAI就“明显违反”了YouTube的使用条款。

对此，他解释道：

“创作者希望YouTube的所有用户都能遵守服务条款，即不下载文字记录或视频片段等内容，因为这是他们辛辛苦苦创作的作品。这也是我们平台内容管理的基本规则。”

“YouTube上的创作者与平台之间存在各种不同类型的授权合同。我承认谷歌强大的Gemini模型部分使用了YouTube上的一些内容，但是它是提前获得了创作者适当授权，并遵循了YouTube与创作者之间的个人合同。”

市场关注OpenAI等公司使用何种材料训练AI模型

据悉，Sora以及其他生成式AI工具以从互联网上收集的大量信息为基础，进而生成包括视频、照片、叙述性文本等新内容。模型的能力在很大程度上取决于它训练的数据量。通常情况下，数据越多，模型的性能就越好，因为它有更多的例子来学习不同的语言用法。

但是，随着OpenAI、谷歌等公司争相开发更强大的AI技术，如何合法合规地利用互联网信息训练AI模型成为了科技巨头们面临的重要问题。

一方面，各大社交媒体平台和新闻出版商已开始限制其数据被用于AI训练。他们担心如果数据被自由用于AI训练，可能导致内容创造者和平台本身失去应得的经济回报。

另一方面，普罗大众对于个人隐私的保护意识显著提升，许多人对于将私人对话如iMessage中的聊天记录提供给AI训练的意愿较低，人们可能担心他们的隐私可能会受到侵犯。

上个月，OpenAI的首席技术官Mira Murati上个月在接受媒体采访时表示，她不确定Sora是否使用了来自YouTube、Facebook和Instagram的用户生成视频进行训练。

由于Murati的闪烁其词，引发了业界对OpenAI训练数据来源的质疑。同时，这一事件触发了公众对关于公共领域数据的所有权问题更广泛的讨论：“我们在网络上发布的内容，究竟是属于个人私密还是公共资产？”

本周，有媒体援引知情人士消息称，OpenAI正在讨论使用YouTube公开视频的转录来训练其下一代大型语言模型GPT-5。但是OpenAI对此尚未进行回应。

本文来自微信公众号“硬AI”，关注更多AI前沿资讯请移步这里

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。