GPT时代竞争壁垒“可望不可及” 背靠大公司方是正道?中小公司切入点在哪?

中信证券认为,未来模型大小与日活用户数接近阈值后,AI行业将演变为“AI巨头提供泛用性模型,中小公司切入特定垂直行业”的格局。

随着生成式人工智能行业发展驶入“快车道”,行业格局的调整与洗牌也将到来。

4月8日,在中国人工智能学会主办的“人工智能大模型技术高峰论坛”主论坛上,华为云人工智能领域首席科学家田奇发表讲话时提到,人工智能发展正在面临两大趋势:

从小模型到大模型,过去10年内AI算法的算力需求提升了40万倍。

人工智能与科学计算的交汇,工业、气象、能源、生物医学等众多领域都受到AI的深刻影响。

田奇认为,大模型是连接技术生态和商业生态的桥梁,是未来AI生态的核心,但大模型成本高昂,开发和训练一次需要1200万美元,未来的市场趋势将是向大公司集中;此外,大模型的技术门槛高,需要有对AI框架深度优化和超强的并行计算能力。

对此,中信证券陈俊云、许英博等人亦在发表于4月7日的报告《GPT 会是 AI 算法模型的终极答案吗?》中指出,进入人工智能模型研发的门槛越来越高,尽管算力的单位成本持续保持快速下降趋势,但随着模型体量仍然在成倍数增加,大量的前期资本投入是阻碍新入者的重要因素。

因此,在未来的人工智能领域,资源将是大公司最重要的竞争壁垒之一。

竞争壁垒:数据、工程实践、人才、资本等

回顾过去近十年的人工智能模型发展,中信证券总结发现,新厂商进入大语言模型研发的门槛越来越高:

从 2017 年谷歌提出 Bert 模型至今,我们可以看到大语言模型的迭代主要都是由老牌的互联网大厂或是巨头全力支持的初创公司(OpenAI、Deepmind)推动。这个赛道中的参与者数量十分稀少,而原因就来自于极高的准入门槛。

基于上文的分析,中期维度,伴随 AI 模型技术路线朝着以 GPT 为主的 LLM(大语言模型)方向收敛,我们总结认为,AI 算法模型的核心技术壁垒将主要集中到:数据、工程实践、资本、核心人才等层面。

其一,在数据方面,由于目前的大模型已经在穷尽所有能找到的公开网络数据,大公司所掌握的私有数据成为差异化优势的关键:

从 Bert 开始到 GPT-3 再到谷歌的PALM,网络中的公开语言数据源已经在被尽可能地利用(论坛、新闻、维基百科等等),利用爬虫等手段可以大量爬取公开的数据源。

但模型的进一步优化仍需要更多数据,这要求模型开发商有能力接触到优质的私有数据来源,从而才能在模型的数据底层取得差异性的优势。

我们判断,优质私有数据源,以及通过私有数据进一步生成的合成数据,将在未来 3-5年里人工智能模型的精度优化上发挥更为重要的作用。爬虫难以爬取的社交媒体数据、保存在后台的用户偏好数据、代码托管数据等仍具有开发空间,这也将成为数据获取端的优势。

如 Google 对用户搜索以及 Youtube 视频的数据源、微软在 Github 中收集到的私有数据都将成为决定模型能力的差异化因素。

此外,结合这些私有数据生成的合成数据将进一步放大这些公司数据端的优势。

其二,在资本投入方面,大模型开发所需的成本越来越高,不依靠互联网大厂的初创公司成为凤毛麟角:

随着模型体积仍在指数级增长,大量的前期资本投入是阻碍新入者的重要因素。在过去五年内,我们看到人工智能模型的独角兽都在寻找互联网科技大厂作为其背后的依靠,极少有仅靠 PE、VC 融资的大语言模型初创公司出现。原因我们可以总结为以下几点:

1)能够得到充足而短时间内不求回报的资金支持;

2)依靠互联网大厂的公有云等相关资源进一步降低成本;

3) 获取互联网大厂长期以来所积累的优质数据源。

这也是我们为什么看到在过去五年内人工智能头部厂商逐渐从开源走向闭源,利用其资源优势来打造差异化的 AI 模型,而落后者更希望通过开源的模式以求缩小与头部厂商的距离的原因。

其三,在工程实践方面,研发团队的工程能力是决定公司在大语言模型竞争力的另一个重要因素:

工程能力决定了 AI 研发团队对模型的部署、迭代以及维护的速度,这也变相增加了模型的成本。

当前的大语言模型参数量在 2000 亿以上,整个预训练过程长达最少一个月,这其中包含了大量的工程实施问题。如何优化工程细节,以及缺乏实践工程经验导致的试错成本是目前新进入者的一个重要困难。

其四,在核心人才方面,具备足够工程能力的人才大部分都属大公司麾下,这也成为了初创公司的痛点:

大语言模型与以往小模型研究范式的区别决定了,目前具备足够工程能力的人才十分稀缺,大语言模型研发拥有经验丰富的领头人极为关键。

以往的人工智能模型开发主要围绕 LSTM、CNN 等小模型,这些小模型的调试、使用方法等往往都包含在了学校课程中,个体工程师也可以通过自有资源进行摸索并丰富自己的经验。

但随着语言模型的体积不断增加,在研究方法上现今千亿量级的模型与之前几十亿量级的小模型发生了本质变化,个体工程师没有能力通过自有资源积累对大模型的学习经验。一个合格的大模型研发团队需要依靠大公司的资源支持才能积累对模型调试、优化、实际部署等各个环节足够的经验。

根据 OpenAI 在其招聘官网中所公布的细节,其基本要求博士生毕业获有 3 年以上在大语言模型经验的研究生。

优秀的工程人才稀缺以及培养难度让没有经验的新公司进入更为困难,如何招募到一个大模型领域经验丰富的专家并在其影响力的基础上招募来自于大公司的有一定工程经验的团队将成为新入公司的核心问题。

算力成本两年下降66% 中小公司仍有切入点

算力成本方面,中信证券通过测算发现,尽管人工智能模型的总研发投入持续在提高,但主要原因来自于模型体积的倍数式增长,而人工智能模型的单位成本保持下降趋势。

因为单次模型训练耗时较长,一般情况下不太会反复预训练大语言模型,因此我们在测算训练环节成本时,假定预训练单次,且训练过程中没有出现错误时的成本。

实际情形中,考虑到训练过程中出现工程类错误的可能性,实际成本会高于我们计算的理想情况成本。

假设参数量为 175B、500B Tokens 的情况下,根据 OpenAI 的“Scaling Laws for Neural Language Models”论文(作者:Jared Kaplan,Sam McCandlish, Tom Henighan 等),在使用 256 个 HGX A100 服务器(2048个 A100 GPU 卡)的情况下,Model FLOPs Utilization(MFU)假设为 Megatron-LM 的51.04%,我们推测单次训练时长约为 30.71 天,换算为 1509702.7 GPU 小时。

假设训练使用成本价约为 1 美元/GPU 小时的情况下,耗费服务器端成本约为 151 万美元。

成本下降速度方面,根据两年前的成本数据,可以得出成本在两年内下降了约66%:

根据斯坦福大学讲师 Mourri 在 2020 年使用 Tesla V100 显卡作为基准的估算,当时训练 GPT-3 的成本约为 460 万美元。由此可见成本在两年内下降了约 66%,不过考虑到训练时间成本仍然高昂,反复预训练大语言模型仍不会成为首选。

至于推理端成本,中信证券测算后表示,过蒸馏、稀疏化处理等方式持续优化,中短期内仍存在数倍的优化空间:

以 ChatGPT 为例,根据我们在 2022 年底的测算,ChatGPT 生成一次回答的成本约在 1-2 美分之间。

而从3 月 2 日 OpenAI 对 ChatGPT API 的定价出,0.2 美分每 1000tokens 的定价对应为百亿参数级别的模型,结合 ChatGPT 在训练过程中所使用得Reward Model(奖励模型,记录了人类偏好)应为千亿参数级别的模型,这意味着 OpenAI将其在千亿参数模型中所学习到的能力通过类似于蒸馏(distillation)的方式浓缩进了百亿参数的模型中,通过缩减参数量的形式快速降低了成本消耗。

根据目前用户在社交媒体的反馈结果看,这个百亿参数模型的能力以及追平甚至超越了先前的大尺寸模型。

因此,无论是模型推理端或训练端,单位成本都在持续保持快速下降趋势,而总成本的提高,则主要来源于模型体积的增长、训练数据集增加、推理端用户调用次数增加等。

中信证券认为,当未来模型大小与日活用户数接近阈值后,成本端的优化将会收束模型整体成本的膨胀,也提供给一些中小公司切入垂直领域的机会,最终形成:AI 巨头提供泛用性模型以及服务主要 ToC 需求,中小公司切入特定垂直行业并根据需求做微调优化模型的格局。

 

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。