堆栈AI Infra——AI大模型时代的“卖铲人”

中金公司韩蕊等人
中金指出,AI Infra是连接算力和应用的AI中间层基础设施,涵盖了数据准备、模型训练、模型部署和应用整合等环节,其中的基础软件工具有较高商业化潜力;目前AI Infra产业处于高速增长的发展早期,未来3-5年内各细分赛道有望保持30%+高速增长。

类比计算机系统的基础软件层以及云计算三层架构的PaaS层级,我们认为,AI产业链中也有层级相似,定位于算力与应用之间的“桥梁”角色的基础软件设施层即AI Infra。新一轮生成式AI浪潮,对于上层应用而言机遇与挑战并存,而AI Infra作为必要的基础设施,我们认为其技术及商业发展前景的确定性或更强。本文我们聚焦AI Infra,揭示其内涵并总结目前国内外项目的商业化进展,再从工作流视角详细梳理各环节及代表厂商。我们认为,AI Infra是AI产业必不可少的基础软件堆栈,“掘金卖铲”逻辑强、商业潜质高,建议投资者持续关注AI Infra相关投资机会。

 摘要

在预训练大模型时代,我们可以从应用落地过程里提炼出标准化的工作流,AI Infra的投资机会得以演绎。传统ML时代AI模型通用性较低,项目落地停留在“手工作坊”阶段,流程难以统一规范。而大规模预训练模型统一了“从0到1”的技术路径,具备解决问题的泛化能力,能够赋能“从1到100”的各类应用,并存在相对标准化的工作流,由此衍生出AI Infra投资机会。GPT 4的开发经验也体现专业分工的必要性:根据OpenAI的披露,在GPT 4的开发过程中,其对249人研发团队进行了明确分工,并使用了数据标注、分布式计算框架、实验管理等点工具。我们认为这也说明了在大模型时代应用基础软件的必要性。目前,AI Infra产业处于高速增长的发展早期,我们预计未来3-5年内各细分赛道空间或保持30%+的高速增长,且各方向均有变现实践与养成独角兽企业的潜力。

“AI = Data + Code”,组织AI所需的养料即数据,管理AI模型的训练部署过程,以及支持从模型到应用的整合是AI Infra工具的关键能力。1)数据准备:无论是支持经典的机器学习模型还是大规模预训练模型,数据准备都是耗时较久、较为关键的一环。我们认为,LLM浪潮下高质量的标注数据和特征库需求将持续增长,未来海量训练数据的需求或由合成数据满足。此外,我们强调Data+AI平台厂商的关键卡位。2)模型训练:预训练模型的获取使得模型库更加流行,LLM大规模训练需求也驱动底层分布式计算引擎和训练框架的迭代。此外,我们认为实验管理工具重要性较高。3)模型部署:LLM模型端的突破释放出大规模应用落地的潜能,更多模型从实验走向生产环境,我们认为有望整体提振模型部署和监控的需求。4)应用整合:LLM赋能应用催生对向量数据库和应用编排工具等的新需求。我们观察到经典的机器学习时代与大模型时代工具栈需求侧重点有所不同,同时,部分点工具正在拓宽产品功能边界,LLMOps平台型产品的可及市场空间天花板或更高。

正文

图表1:一图详解大模型时代的基础软件堆栈——AI Infra

注:图中市场规模数据为我们在正文图表9相关资料来源基础上估算得到的约数;图中灰色文本框为我们的观点
资料来源:Grand View Research,Foresight News,Gartner,MarketsandMarkets,拾象科技,Firstmark,a16z,各公司官网,中金公司研究部

 初见:AI Infra是连接算力和应用的AI中间层基础设施

 本章主要讨论:1)AI Infra在AI时代IT生态中的定位;2)为什么大模型浪潮下需要格外关注AI Infra投资机会;3)AI Infra基础软件工具栈涵盖内容;4)AI Infra商业化初探。

 比基础软件和PaaS,AI Infra是AI时代的中间层基础设施

 从类比的角度理解AI Infra:AI时代连接硬件和上层应用的中间层基础设施。传统本地部署时代,三大基础软件(数据库、操作系统、中间件)实现控制硬件交互、存储管理数据、网络通信调度等共性功能,抽象并隔绝底层硬件系统的复杂性,让上层应用开发者能够专注于业务逻辑和应用功能本身的创新实现。云时代同理,形成了IaaS、PaaS、SaaS三层架构,其中PaaS层提供应用开发环境和基础的数据分析管理服务。类比来看,我们认为,进入AI时代也有承担类似功能的、连接算力和应用的基础设施中间层即AI Infra,提供基础模型服务、赋能模型微调和应用开发。

 图表2:AI Infra是人工智能时代连接硬件和上层应用的中间层基础设施

资料来源:中金公司研究部

 大模型通用性赋能下应用落地流程更加标准化,催生AI Infra投资机会

 LLM流行前,AI模型通用性较低,项目落地停留在“手工作坊”阶段,流程难以统一规范。人工智能已有数十年的发展历史,尤其是2006年以来以深度学习为代表的训练方法的成熟推动第三波发展浪潮。然而,由于传统的机器学习模型没有泛化能力,大部分AI应用落地以定制化项目的形式,包括需求、数据、算法设计、训练评估、部署和运维等阶段,其中,数据和训练评估阶段往往需要多次循环,较难形成一套标准化的端到端的流程和解决方案,也由此造成了边际成本高、重复造轮子等问题。

 大规模预训练模型完成了“从0到1”的技术统一,泛化能力和通用性释放出“从1到100”的落地需求,且存在相对标准化的流程,衍生出AI Infra投资机会。基于Transformer算法、超大参数量的预训练模型拥有泛化能力,一定程度上解决了原先需要按项目定制训练的问题,过去正因为ML模型的非标和项目制,下游需求并未被完全激发出来,LLM模型端的突破释放出更大规模的应用落地潜能。而后续的应用过程中主要涉及:高质量样本数据的准备、基础模型获取、模型微调及部署监控、应用编排开发上线等环节,工作流较为标准化,我们建议投资者持续关注AI Infra投资机会。

 图表3:具有泛化能力的通用大规模预训练模型赋能下,后续工作流较为标准化,衍生出AI Infra投资机会

资料来源:中金公司研究部

 从OpenAI实践看分工必要性,核心关注工作流相关的基础软件工具栈

 参考海外OpenAI的率先尝试,工作流分工、点工具加持助力成功。一方面,OpenAI在《GPT-4 Technical Report》论文中[1]中披露了参与GPT 4开发的人员分工,共249人,角色分工明确,预训练、强化学习和对齐、部署等6个大方向下又拆分成不同小组,其中数据集/数据基础设施、分布式训练基础设施、推理基础设施等分别对应工作流中的数据准备、模型训练、部署应用等环节;另一方面,OpenAI使用了Scale数据标注服务、Ray分布式计算框架和Weights and Biases(W&B)实验管理工具,且W&B的创立灵感就来自于其创始人之一在OpenAI的实习经历。我们认为,OpenAI的率先尝试经验一定程度上说明专业分工和AI Infra基础软件堆栈在大模型时代的必要性。

图表4:Open AI《GPT-4 Technical Report》中披露的人员分工明确

资料来源:《GPT-4 Technical Report》(OpenAI,2022),中金公司研究部

AI Infra广义上包含了基础模型和基础软件栈两层,本篇报告核心关注其中和工作流相关的基础软件工具栈。工作流的视角下,LLM的开发应用主要涉及数据准备、模型训练、模型部署、产品整合四个主要环节,每个环节都有对应的点工具,亦有集大成的LLMOps平台型产品,我们将在下一章详细解读。

图表5:AI Infra全景图

资料来源:a16z官网,拾象科技公众号,中金公司研究部

商业化起步中,已有变现实践,细分赛道或均有长出独角兽的潜力

商业化起步阶段,有望在未来几年快速成长为百亿美元量级的产业。我们认为,AI Infra整体处于高速增长的发展早期,如图表9的整理,根据第三方数据,目前大部分细分赛道规模在几亿至几十亿美元量级,我们预计在未来3-5年内或将保持30+%的高速增长。同时,Data+AI、MLOps/LLMOps等平台型产品的市场空间天花板可能更高,我们也观察到点工具厂商正在积极拓展产品边界。我们认为,AI Infra是AI时代不可或缺的基础设施中间层,“掘金卖铲”逻辑的确定性高,有望持续受益于LLM、AI应用的繁荣。

图表6:AI Infra细分赛道市场规模

资料来源:Grand View Research,Foresight News,Gartner,MarketsandMarkets,Cognilytica,沙利文,Allied Market Research,Research Nester,中金公司研究部

外厂商积极探索变现,细分赛道或均有长出独角兽的潜力。从微观的视角,我们整理了AI Infra各细分赛道海外代表公司的商业模式,基本遵循按使用量付费的定价模式。大多数创业公司成立时间较短,详见图表10,目前收入体量在数千万至小几亿美元量级,其中数据相关的、平台型的厂商起步较早、已初具规模,我们认为这也符合数据需要前置于AI模型投入、平台型厂商收入天花板更高的逻辑。此外,我们认为LLM模型端突破将释放出更大规模应用落地的潜能,有望带动模型部署、应用整合等后续环节的逐步起量。

图表7:AI Infra各赛道代表公司的商业模式一览

注:估值取最近一次公开融资披露数据,统计截至2023年7月;收入水平中,Scale AI、Tecton、Dataiku为Growjo网站预测,Databricks来自公司官网披露,Weight&Biases为海外独角兽公众号预计
资料来源:各公司官网,海外独角兽公众号,Growjo,中金公司研究部

探秘:从工作流视角梳理AI Infra投资机会 

大模型时代和传统机器学习时代工具栈侧重点有所不同

本章从企业训练模型、构建AI赋能应用的工作流视角出发,详解涉及的主要环节,并关注LLMOps和MLOps在流程上的侧重点差异。我们认为AI = Data + Code,历经数据准备、模型训练、模型部署、产品整合,分环节看:

► 数据准备:高质量标注数据、特征库需求持续,合成数据或成未来趋势。数据准备无论在传统的MLOps还是LLMOps中都是耗时较久、较为重要的一环。无监督学习降低对标注数据的需求,但RLHF机制体现了高质量标注数据的重要性,我们认为未来超大参数量模型对海量训练数据的需求或由合成数据满足。此外,Data+AI平台厂商卡位关键。

► 模型训练:模型库更加刚需,训练框架持续迭代,软件工具协助实验管理。基于通用的LLM大模型微调、蒸馏出小模型成为高性价比的落地方式,因此需要能够高效便捷地获取预训练模型的模型库;也催生更适应LLM大规模训练需求的底层分布式计算引擎和训练框架。此外,我们认为实验管理工具的重要性或始终较高。

► 模型部署:更多模型从实验走向真实业务环境,部署和监控需求提升。我们认为,LLM模型端的突破释放出大规模应用落地的潜能,更多的模型从实验环境走向生产环境,有望整体提振模型部署和监控的需求。

► 应用整合:催生向量数据库和应用编排框架新需求。LLM赋能应用催生出对应用产品整合相关工具产品的需求,其中较为关键的是向量数据库和应用编排工具。

图表8:从工作流视角梳理,大模型时代和传统ML时代工具栈侧重点有所不同

资料来源:拾象科技,Firstmark,a16z官网,中金公司研究部

数据准备:高质量标注数据、特征库需求持续,合成数据或成未来趋势

数据是模型的起点,一定程度上决定了模型的效果和质量,数据准备无论在传统的MLOps还是LLMOps中都是耗时较久、较为重要的一环。LLM带来的新变化主要包括:1)虽然LLM的无监督学习机制降低了对标注数据的需求,但OpenAI的RLHF(Reinforcement Learning from Human Feedback)体现了高质量标注数据重要性;2)模型规模大幅提升,带来日益增长的训练数据需求,长期看可能无法仅通过真实世界数据满足,合成数据提供一种AIGC反哺AI的解法。此外,数据基础管理软件平台的卡位始终关键,Data+AI平台化趋势持续演进。

数据标注:GPT的成功说明了高质量标注数据对提升模型效果的重要性。数据标注位于模型开发的最上游,对图像、视频、文本、音频等非结构化原始数据添加标签,为AI提供人类先验知识的输入。近年,无监督学习(事先不定义明确目的)、强化学习(通过奖励函数来指导学习过程)等不需要标注数据的机器学习分支方法论的出现引发市场对于数据标注必要性的讨论与担忧。不过,OpenAI通过RLHF即基于人类反馈的强化学习来优化模型,且从OpenAI[2]披露的分工中能看到有很多负责预训练、强化学习等的AI科学家也参与到数据准备中;最新开源的LLAMA 2的论文[3]中也有一段强调高质量数据对模型训练结果影响的表述,Meta与第三方供应商合作收集了近3万个高质量标注,又向市场证明了高质量数据标注工作的重要性。

图表9:高质量标注数据在GPT模型训练中起重要作用

资料来源:《Training language models to follow instructions with human feedback》(OpenAI, 2022),中金公司研究部 

数据标注厂商正在寻求智能化转型、减少对人力的依赖。在数据标注助力AI快速发展的同时,AI也将反哺数据标注更加自动化、智能化,如利用模型进行数据预处理再人工审核等。今年4月Meta AI发布的Segment Anything Model[4]的训练数据集SA-1B,就是通过智能数据引擎来辅助自动化生成的,该数据引擎经历了辅助手动标注-半自动标注-自动化标注的训练过程。

特征库(Feature Store):高质量特征库持续受益。特征是预测模型的输入信号,可以简单理解为模型中的自变量X,需要经过特征工程从原始数据中筛选得到。而特征库则是生产、管理、运营ML过程中所需数据及特征的系统,主要实现1)运行各类数据管道(Pipeline)将原始数据转换为特征值;2)存储和管理特征和数据;3)为训练和推理提供一致的特征服务。目前该领域的代表性产品包括:开源项目如Feast,独立商业化公司如Tecton,大型科技厂商的ML平台如Databricks、SageMaker等中亦有相应模块。数据和特征的质量决定了机器学习的上限,我们认为高质量特征库有望持续受益,同时国内数据要素市场的蓬勃发展长期看有望为AI模型供应更多高质量的数据燃料。

图表10:特征库是生产、管理、运营ML过程中所需数据及特征的系统

资料来源:Tecton官网产品文档,中金公司研究部 

合成数据:做真实数据的“平替”,用AIGC反哺AI。一项来自Epoch AI Research团队的研究预测存量的高质量语言数据将在2026年耗尽[5],低质量的语言和图像数据存量也将在未来的数十年间枯竭。面对潜在的数据瓶颈,合成数据即运用计算机模拟生成的人造数据,提供了一种成本低、具有多样性、规避了潜在隐私安全风险的解决方法,生成式AI的逐渐成熟进一步提供技术支撑。比如,自然语言修改图片的Instruct-Pix2Pix模型在训练的时候就用到GPT3和Stable Diffusion来合成需要的提示词和图像的配对数据集;Amazon也利用合成数据来训练智能助手Alexa[6],以避免用户隐私问题。合成数据市场参与者较多,独立公司/项目如gretel、MOSTLY AI、datagen、hazy等,数据标注厂商如Scale亦推出相关产品,此外主流科技公司英伟达、微软、亚马逊等均有不同场景的尝试。

图表11:Instruct-Pix2Pix借助GPT-3、Stable Diffusion生成指令-图像训练数据集

资料来源:《InstructPix2Pix: Learning to Follow Image Editing Instructions(Tim Brooks等,2022》,中金公司研究部

数据科学基础平台:数据卡位始终关键,Data+AI是行业趋势。广义的数据科学涵盖利用各类工具、算法理解数据蕴藏含义的全过程,机器学习可以视为其中的一种方式和手段;狭义的数据科学也可以仅指代机器学习的前置步骤,包括准备、预处理数据并进行探索性分析等。正如我们从报告《人工智能十年展望(八):探索ChatGPT根基——数据与人工智能如何相互成就?》开始一直强调的观点,数据和AI一体两翼,数据是模型的起点、且一定程度上决定了模型的最终效果和质量,数据基础设施厂商卡位关键,从Data向AI布局是技术能力和业务逻辑的自然延伸。LLM等大模型的渗透发展不仅额外增加了数据平台上AI相关的工作流负载,还可以带动底层Data基础设施的需求。

模型训练:模型库更加刚需,训练框架持续迭代,软件工具协助实验管理

大模型具有一定通用性,开发者们可以“站在巨人的肩膀上”,在预训练模型的基础上通过少量增量训练蒸馏出专精的小模型以解决垂类场景的需求。LLM带来的新变化主要包括:1)要想高效便捷地获取模型,则需要一个集成托管各类模型的社区也即模型库;2)催生更适应LLM大规模训练需求的底层分布式计算引擎和训练框架。此外,模型训练过程涉及多次往复的修改迭代,无论是ML还是LLM都需要借助实验管理工具进行版本控制和协作管理。

模型库(Model Hub):把握从数据到模型的工作流入口。模型库顾名思义是一个托管、共享了大量开源模型的平台社区,供开发者下载各类预训练模型,除模型外,主流的Model Hub平台上还同时提供各类共享的数据集、应用程序Demo等,是AI、ML细分领域的“GitHub”。典型代表厂商包括海外的Hugging Face、Replicate,国内关注Gitee(开源中国推出的代码托管平台)和ModelScope(阿里达摩院推出的AI开源模型社区)等项目。在商业模型上,Model Hub厂商一般选择切入下游的AutoTrain(自动创建、优化、评估模型)或模型推理服务,也在尝试就Model Hub功能收取订阅制会员费用。

图表12:Hugging Face上托管了NLP、机器视觉等各类模型

资料来源:Hugging Face官网,中金公司研究部

分布式计算和深度学习框架:大模型“炼丹炉”。分布式计算引擎方面,LLM的训练过程需要大规模的GPU分布式计算集群,过去大数据已带动了以MapReduce、Spark为代表的分布式计算引擎的发展,但以Ray为代表的近年在AI大潮下兴起的分布式计算框架则更贴合AI需求(Ray的首篇论文名为《Ray: A Distributed Framework for Emerging AI Applications[7]》),其核心模块Ray Tune、Ray Rllib、Ray Train分别对应机器学习调参、强化、深度学习调参的流程。Ray在官网的用户案例中表示“Ray是使OpenAI能够增强其训练ChatGPT和类似模型能力的关键”[8]。此外,Ray作为更底层的分布式计算引擎,和TensorFlow、PyTorch等深度学习框架兼容,而DeepSpeed、ColossalAI等则是在PyTorch等基础框架之上针对LLM的优化训练设计的新一代框架。

实验管理:记录实验元数据,辅助版本控制,保障结果可复现。模型训练是一种实验科学,需要反复的修改与迭代,同时由于无法提前预知实验结果往往还涉及版本回溯、多次往复,因此模型的版本控制和管理就较为必要,实验管理软件可以辅助技术人员和团队追踪模型版本、检验模型性能。该领域代表厂商为Weights and Biases(W&B)和Neptune,跟踪机器学习实验,记录实验元数据,包括训练使用数据集、框架、进度、结果等,支持以可视化的形式展现结果、多实验结果对比、团队协作共享等。此外,实验管理也是LLMOps/MLOps平台型产品如星环科技Sophon、Google Vertex AI等产品中的重要模块之一。

图表13:以Neptune为例,记录每次实验的元数据,支持多实验结果对比

资料来源:Neptune官网,中金公司研究部

模型部署:更多模型从实验走向真实业务环境,部署和监控需求提升

模型部署是让模型从实验环境走向真实生产环境的重要环节,借助模型部署工具能够解决模型框架兼容性差的问题并提升模型运行速度。模型监控通过对模型输出结果和性能指标的追踪,保障模型上线后的可用性。我们认为,过去由于ML模型的非标和项目制,大规模、持续性的模型部署和监控需求未被完全激发出来,LLM模型端的突破释放出大规模应用落地的潜能,更多的模型从实验环境走向生产环境,我们认为有望整体提振模型部署和监控的需求。

模型部署:从实验走向生产的重要环节。模型部署指把训练好的模型在特定环境中运行,需要尽量最大化资源利用效率,保证用户使用端的高性能。模型部署领域参与者较多,比如Ray、Tensorflow、PyTorch等训练框架都提供配套的模型部署功能,模型库厂商如Hugging Face、实验管理厂商如W&B也有相关产品,此外还有如Seldon、BentoML、OctoML等独立项目/产品。和训练框架自带的部署模块相比,三方的综合性产品能够为不同框架下训练出来的模型提供一套相对统一的部署方式。以Seldon为例,在复杂的多模型推理场景下,Seldon通过模型可解释性、异常值检测等模块,最终选出表现最好的模型进行结果反馈。

图表14:Seldon支持的单一模型、复杂多模型的推理过程示意

资料来源:Seldon官网产品文档,中金公司研究部

模型监控:模型可观测性保障可靠可用。可观测性在传统IT系统运维中就是重要的数智化手段之一,通过监控各类机器、系统的运行数据对故障和异常值提前告警。模型监控同理,监测模型上线后的数据流质量以及表现性能,关注模型可解释性,对故障进行根因分析,预防数据漂移、模型幻觉等问题。模型可观测性领域有较多创业公司,包括Fiddler、WhyLabs、Evidently AI等,实验管理厂商如W&B、模型部署厂商如Seldon也有所涉及,此外,传统的IT运维可观测性厂商也有机会切入AI模型监控领域,海外如Datadog已经尝试将Open AI的模型服务加入纳管范畴,我们也建议关注国内相关厂商的后续进展。

图表15:以WhyLabs为例看模型可观测性在工作流中的具体环节定位

资料来源:WhyLabs官网产品文档,中金公司研究部

应用整合:催生向量数据库和应用编排框架新需求

正如前文提及,LLM模型端的突破释放出更多应用落地的潜能,由此催生出对应用产品整合相关工具产品的需求,其中较为关键的是向量数据库和LLM应用编排工具。

向量数据库:LLM的外部知识库。让通用大模型具备专业知识主要有两种途径,一是通过微调将专有知识内化到LLM中;另一种则是利用向量数据库给LLM增加外部知识库,后者成本更低。向量数据库和LLM的具体交互过程为:用户首先将企业知识库的全量信息通过嵌入模型转化为向量后储存在向量数据库中,用户输入prompt时,先将其同样向量化,并在向量数据库中检索最为相关的内容,再将检索到的相关信息和初始prompt一起输入给LLM模型,以得到最终返回结果。

向量化技术本身已较为成熟,海外模型如Word2Vec、FastText等,国内中文Embedding模型有MokaAI开源的M3E、IDEA CCNL[9]开源的二郎神系列。向量数据库厂商/产品主要包括Pinecone、Zilliz、星环科技Hippo等,另外也有传统数据库、大数据平台厂商如PGSQL、Databricks通过增加向量查询引擎插件来实现支持。我们认为,向量数据库是AI Answers类应用落地的刚需,同时本土厂商在中文Embedding方面可能更具优势。

图表16:向量数据库和LLM的具体交互过程

资料来源:Pinecone官网,星环科技公众号,中金公司研究部

应用编排框架:LLM应用“粘合剂”。LLM应用编排框架是一个封装了各种大语言模型应用开发所需逻辑和工具的代码库,LangChain是当下最流行的框架之一,还有Anarchy、Dust、AutoGPT、LlamaIndex等。初始化的大模型存在无法联网、无法调用其他API、无法访问本地文件、对Prompt要求高、生成能力强但内容准确度无法保证等问题,应用编排框架提供了相应功能模块,帮助实现从LLM到最终应用的跨越。以LangChain为例,它主要包含以下几个模块:1)Prompt实现指令的补全和优化;2)Chain调用外部数据源、工具链;3)Agent优化模块间的调用顺序和流程;4)Memory增加上下文记忆。

集成开发环境:交互式Notebook逐渐流行。在上述AI建模流程中,开发者需要处理大量代码编写、分析、编译、调试等工作,可以直接在对应环节或平台型产品的内置环境中进行,也可以使用专门的集成开发环境并调取所需功能。其中,Notebook是一种交互式的开发环境,和传统的非交互式开发环境相比,Notebook可以逐单元格(Cell)编写和运行程序,出现错误时,仅需调整并运行出现错误的单元格,大大提升开发效率,因此近年逐渐流行、深受数据科学家和算法工程师的喜爱,被广泛应用于AI算法开发训练领域。

点工具不断拓宽产品边界,LLMOps一站式解决方案或更适应国内市场

点工具厂商正不断拓宽能力边界。前文我们详细介绍了模型训练、构建应用工作流涉及的主要环节及各环节点工具厂商,事实上,这些点工具厂商在强项环节之外亦不断拓宽产品能力边界,比如数据标注厂商Scale AI拓展合成数据业务并正在投入LLMOps领域的Scale Spellbook(做一个基于大语言模型的开发者工具平台);模型库厂商Hugging face切入AutoTrain和模型部署;实验管理厂商W&B切入模型部署和模型监控等。

MLOps/LLMOps提供一站式平台解决方案,可及市场空间更大,多采取Data+AI一体化战略。除点工具外还有平台型的MLOps/LLMOps产品,基本涵盖了上述流程的主要环节,大型科技企业、数据基础软件厂商均参与其中。我们认为,基于整体数字化进程和软件付费意愿习惯判断,海外企业客户可能倾向于选取点工具自组工具栈,而国内客户可能倾向于一站式的解决方案。此外,从目前AI Infra领域独角兽的估值水平来看,平台型厂商多采取Data+AI一体化战略,起步较早、规模天花板更高。

图表17:AI Infra领域独角兽企业一览

注:统计截至2023年7月,最新估值截至各公司最近一次融资
资料来源:Crunchbase,中金公司研究部

 

 

[1]https://arxiv.org/pdf/2303.08774.pdf 《GPT-4 Technical Report》(OpenAI,2022)

[2]https://arxiv.org/pdf/2303.08774.pdf 《GPT-4 Technical Report》(OpenAI,2022)

[3]https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/ 

[4]https://arxiv.org/pdf/2304.02643.pdf 《Segment Anything》(Alexander Kirillov等,2023)

[5]《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning》(Pablo Villalobos等,2022);https://arxiv.org/pdf/2211.04325.pdf

[6]https://www.statice.ai/post/types-synthetic-data-examples-real-life-examples

[7]https://arxiv.org/pdf/1712.05889.pdf 《Ray: A Distributed Framework for Emerging AI Applications》(Philipp Moritz等,2018)

[8]https://docs.ray.io/en/releases-2.4.0/ray-overview/use-cases.html

[9]全称为IDEA研究院认知计算与自然语言研究中心

 

本文作者:中金公司韩蕊(S0080523070010)、于钟海(S0080518070011/BOP246)、胡安琪(S0080122070070)、王之昊(S0080522050001/BSS168)、魏鹳霏(S0080523060019/BSX734),来源:中金点睛,原文标题:《中金 | AI十年展望(十二):详解大模型时代的基础软件堆栈AI Infra》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章