ChatGPT的出现,不但让AI有了比较明确的商业化方向,也在快速改变服务器产业格局。
传统基于x86架构的CPU芯片,在服务器领域的统治地位,已岌岌可危。
美国证券半导体分析师在最近发布的一份报告中提到,由于ChatGPT对云计算以及IDC的AI算力需求激增,很可能导致商业模式选择将资源转向AI加速器芯片,比如NVIDIA(英伟达)的GPU(图形处理单元)和Broadcom/Marvel的AI定制IC(用于AI推理)。
因此,传统x86架构的、主要由Intel/AMD提供的服务器CPU,到2025年,可能不再是服务器的主要芯片。
同时,更重要的事情发生了:尽管英伟达的GPU产品如今在支撑ChatGPT的算力需求时,风头无俩,但挑战者(或称分羹者)却已出现。
正所谓:螳螂捕蝉,黄雀在后。这只黄雀,是何方神圣?
英伟达:超越x86架构芯片
Vivek Arya,这位半导体分析师在报告中认为,基于传统x86架构的服务器CPU芯片商,比如Intel或AMD,正在遇到NVIDIA这个AI领域领头羊公司的强力挑战。
GPU是英伟达的主要产品,其营收占总收入的80%+。GPU通常作为插入PC主板的卡出现,也有些SoC芯片设计商,将GPU作为SoC芯片的一个模块,整合在系统级芯片中成为一个整体(比如高通骁龙8Gen 2)。
英伟达的GPU芯片,主要作用是为AMD或英特尔等公司制造的中央处理器(CPU)增加计算能力。
Vivek Arya在报告中估计,2023年至2025年,AI加速器芯片的销售额将超过400亿美元(相比2022年复合年均增长率达37%)。于此对应,x86 CPU复合年均增长率仅3%,销售规模也仅为260亿美元。
在ChatGPT出现前,英伟达GPU主要在计算机图形学领域称王。在PC游戏玩家群体中,英伟达是神一样的存在。
英伟达在GPU领域的主导地位,并非始于今日。1999年,英伟达通过GeForce 256进入图形处理市场。20多年后的2022年,游戏业务带给英伟达超过90亿美元的营收。
2022年12月,OpenAI发布ChatGPT。由于ChatGPT对算力的极度渴求,相当于给算力爆棚的英伟达安装了一组营收动力引擎。算力构成了AI商业繁荣的基础。Vivek Arya说,“使用英伟达的GPU,去增加更多的计算能力非常容易。现在,计算能力相当于硅谷的货币。”
作为支撑ChatGPT背后大型语言模型(LLM)底层动力引擎,英伟达由于在AI方面的敏锐洞察力、早期投资和坚定不移的坚持投入,因而获得了顶级回报。
3月20日-23日,在英伟达举行的年度GTC开发者大会上,AI成为主要与会者讨论的主要焦点。英伟达首席执行官黄仁勋在被问及“提前20年布局AI,到底是运气还是有先见之明”时,黄仁勋回答了这么一句:“我们只是相信总有一天会发生新的事情,其余的一切都需要一些偶然性”。
如今AI芯片组云市场主要分为三个部分:公共云由云服务提供商托管:AWS、微软、谷歌、阿里巴巴、百度和腾讯等;其次是企业数据中心,性质是私有云和混合云,即结合公共云和私有云(VMware、Rackspace、NetApp、HPE和DELL)的产品。
除了公共云、私有云和混合云,ABI Research首席分析师苏连杰认为,还有电信云,即电信公司为其核心网络、IT和边缘计算工作负载部署的云基础设施。
英伟达的GPU在云端训练方面的主导地位无可撼动。但与此同时,从2020年起,ASIC(专用定制芯片)在AI推理领域也出现强劲增长。
苏连杰说,一些云服务提供商(CSP)认为,推理工作量的规模并不小于训练工作量。ASIC是AI加速器芯片中用于推理的部分,另一部分即用于训练的GPU。
事实上,即使是在2022年12月OpenAI发布的ChatGPT 3.5版本中,也确实出现了ChatGPT能根据用户“投喂”问题素材的上下文,做出合乎人类逻辑的精确推理。ChatGPT 4.0版本,推理能力更强。
挑战者谷歌的TPU技术特征
如果看AI定制芯片具备的推理能力,实际上可以发现,英伟达并非缺乏潜在挑战者。
从技术上看,谷歌的TPU(张量处理单元)能同时处理“云上”训练和推理,而非英伟达GPU大部分被用于训练,而ASIC又主要用于推理。因此,谷歌的TPU被视为 CPU 和 GPU 技术的有力挑战者。
苏连杰认为,谷歌在TPU方面的展示的AI技术能力,正为云服务提供商开发属于自己的AI加速器ASIC提供了方向和技术路径。华为、AWS(亚马逊)和百度已经这样做了。
就像英伟达很早就布局AI算力那样,谷歌做TPU同样很早。
2006年,谷歌考虑为神经网络构建专用集成电路(即ASIC),到2013年,谷歌意识到神经网络(NPU)快速增长的计算需求,对ASIC的需求量很可能会翻番。2015年,谷歌将TPU部署到服务器中,并快速迭代。
谷歌TPU如今已迭代到V4.0版。据谷歌4月6日披露,得益于互连技术和领域特定加速器(DSA)方面的关键创新,谷歌云TPU v4在扩展ML(机器学习:Machine Learning)系统性能方面比其前代版本有了近10倍的飞跃。
TPU v4是谷歌于2021年推出的、专门用于执行机器学习(ML)的AI芯片,是谷歌第5代特殊领域加速器(DSA:Domain Specific Accelerator)及第3代用于ML模型的超级计算机平台。
与英伟达的当红辣子鸡A100相比,TPU v4速度快1.2-1.7倍,功耗低1.3-1.9倍。
基于这款芯片,谷歌研发了一台拥有4096颗TPU V4的超级计算机。这也是第一个部署可配置OCS(光电路开关)的超级计算机平台。
OCS可动态配置互联拓扑,以提升扩展性、可用性、利用率、模块化、安全、性能及用电效率。和Infiniband相比,OCS及其底层光纤组件,系统成本不到5%;OCS和底层光学组件更便宜、功耗更低且速度更快,无需光到电到光的转换或耗电的网络分组交换机,从而节省了电力。TPU v4芯片用电率仅200w,二氧化碳排放比一般本地部署的数据中心减少20倍,是执行大型语言模型的理想平台。
TPU v4超级计算机的每颗TPU v4包含SparseCores,这是一种更接近高带宽内存的中间芯片或资料流处理器,许多AI运算都发生在该芯片中,可使深度学习模型嵌入(Embeddings)执行速度提升5-7倍,裸晶(die)面积仅5%。
借由Sparsecores,搭载TPU v4的系统可用于执行搜索、广告、YouTube和Google Play的AI内容推荐。
更令英伟达感到有威胁的是,谷歌宣布,提供AI文本生成图片服务的AI创业公司Midjourney已利用Google Cloud TPUv4来训练其第4版模型。
就像英伟达的GPU在AI大模型做集群训练时,注重生态体系构建一样,谷歌也算法-芯片协同方面做巨额投入。
如今,半导体硬件的技术迭代已接近摩尔定律的极限,未来AI芯片性能要百尺竿头更进一步,就硬件层面的提升空间越来越小。算法和芯片的协同设计将取而代之,成为行业主流;搭建软硬件生态体系和推动行业共建,将在未来成为半导体技术和应用的主要方向。