人工智能技术正在重塑互联网商业模式。随着大型语言模型(LLM)训练需求火热,大型科技公司急于在合规框架下获取优质数据以强化AI的能力,坐拥优质数据的新闻出版商和社交平台,有望从中获利,数据出售对其收入的贡献正在攀升。
Reddit在本月份的首份公开上市后财报中透露,公司预计今年从向LLM开发商授权数据的交易中获得6600万美元收入,占年收入的6%。事实上,随着与OpenAI达成新的数据授权协议,这一数字可能会更高。
作为全世界最大的UGC平台之一,Reddit拥有超过10亿个帖子和160亿条横跨各个主题的评论,无疑是数据采集的金矿。其动态且多样化的数据流可为LLM提供即时的信息来源。
Reddit并非孤例。图像库Shutterstock和Freepik,社交平台Tumblr和WordPress都已与科技公司签订协议,向其授权用于训练LLM的数据。新闻机构如美联社、施普林格公司和路透社亦加入了授权者的行列。
LLM对高质量、最新的训练数据存在迫切需求,为提高查询响应的精准度,该领域的竞争将推动LLM开发商以溢价获取金融、医疗和旅游等领域的优质数据。
据报道,苹果公司曾向新闻出版商提供5000万美元的报价,以获取其内容训练LLM。一些出版商已与OpenAI等公司签约,按照每张图片1-2美元、每段短视频2-4美元、每字0.001美元的定价向其出售内容。
这一趋势也凸显了互联网内容提供商在塑造人工智能未来中的关键作用。内容提供商的商业战略可能将随之调整,数据销售收入也许在未来会成为与广告并驾齐驱的营收来源,甚至取代广告,成为其主要收入来源。
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。