ChatGPT的横空出世,不但为行业指明了可行的AI技术落地方向,也掀起新一轮AI硬件技术比拼。但AGI和LLM通过ChatGPT带动至今,尚无能和英伟达GPU正面对决的AI产品。
就像当年汉武帝那句“寇能往,我亦能往”名言,前有AMD,后有英特尔,都用实际行动亮明了“英伟达能做,我亦能做”的态度。
7月11日,英特尔以中国市场为目标,推出高端AI处理器Habana Gaudi 2,支持加速AI训练和推理任务。特别之处在于,这是一颗搭载在英特尔至强CPU之上的AI加速器。也就是说,这并不是GPU。
Gaudi 2,给予了市场在GPU之外的新选择。英特尔能否凭此,成功将英伟达拉下马?
第二种选择有哪些优点
Gaudi 2,在2022年5月已在海外发布。这次发布了中国定制版,就像英伟达为中国市场推出专门的合规版“A800”和“H800”。
Gaudi 2由Habana Labs研发,这家公司成立于2016年,总部在以色列,是一家为数据中心提供可编程深度学习加速器的AI芯片创业公司。2019年,Habana Labs推出首代Gaudi;当年12月,为其早期投资人英特尔以20亿美元的代价收购。
目前,Habana Labs共推出两个系列的AI产品。其中,用于AI训练的为Gaudi(高迪)系列,而用于AI推理的则为Goya(戈雅)系列。
此次英特尔为中国市场推出的是定制版Gaudi 2,这也是Habana Labs设计的第二代AI硬件加速器。单个服务器包含8个加速器设备(HPU:Habana Processing Units),每个设备包含96GB内存;显存容量为96GB HBM2E,显存带宽高达2.4TB/s。
英特尔执行副总裁、数据中心与人工智能事业部总经理Sandra Rivera没有详细介绍Gaudi 2的参数,但“性价比”得以被重点强调;同时,英特尔 Labs首席运营官Eitan Medina还强调了Gaudi 2相对于国际版在百兆端口数量上虽有所减少,但“从客户使用情况来看,预计影响会非常小”。
目前,就已知的信息看,浪潮信息已采用Gaudi 2,已有支持8颗Gaudi 2深度学习加速器的新一代AI服务器NF5698G7落地。另据英特尔称,紫光新华三、超聚变和百度智能云也会成为Gaudi 2用户。
简单说,Gaudi 2深度学习加速器以首代Gaudi高性能架构为基础,采用台积电7nm工艺,专为训练大语言模型构建。
以MLCommons MLPerf基准测试(主流AI性能测试基准)看,Gaudi 2整体性能高于英伟达A100,但弱于英伟达H100。运行ResNet-50 的每瓦性能约是英伟达 A100 的2倍,运行1760亿参数的BLOOMZ模型时,其每瓦性能约为A100 的1.6倍。
MLPerf每年做两次测评。在今年6月的测评中,除了英伟达H100,Gaudi 2是唯一一套向GPT-3大模型训练基准提交性能结果的解决方案。
除了适配GPT大模型(基于Transformer架构),在最近的Hugging Face评估中,Gaudi 2在大规模推理方面的表现,包括运行Stable Diffusion(高通端侧模型)、70亿及1760亿参数BLOOMz模型时,均有优异推理表现。
比如,与英伟达A100相比,在做Stable Diffusion模型推理时,Gaudi 2加速器时延降低2.21倍。
可以说,Gaudi 2虽然不能取代英伟达H100,但英特尔为LLM推理和训练提供了一个除GPU之外的“CPU(至强)+加速器(Gaudi 2)”的新方案。
原来,做AGI或LLM训练和推理,并不限于用GPU,也可以用CPU和AI加速器配合训练。
Rivera认为,实际上用户存在不同的产品需求:比如中小型模型用户,可选英特尔第四代至强(CPU)处理器(英特尔AMX:高级矩阵扩展)作推理;若要做千亿级新模型训练,想要高等级算力,那么也可采用Gaudi。
在需要大规模业务部署时,Gaudi 2能通过集群横向扩展获得更线性的性能增长。
从MLCommons新公布的MLPerf训练3.0结果可以发现,Gaudi 2在运行1750亿参数的GPT-3模型时,当加速器数量从256个增加到384个时,能实现接近线性的95%的性能扩展效果。
英特尔可扩展至强是向MLPerf 3.0提交的众多解决方案中,唯一的基于CPU通用处理器版本;支持“开箱即用”,也就是说,可以在通用系统上部署AI,以此提高易用性和降低成本。
看着美:丰满和骨感之间
既然强调性价比,那么Gaudi 2的目标,必然不会是顶尖的旗舰定位,而更注重“跑量”。这就相当于智能手机的“中高端”类型,侧重的是抢占尽可能多的市场份额。
这种“从中端入手”的市场策略,已成为近年来英特尔的主要努力方向。
在这场生成式AI战役中,英特尔结合了原本自身的CPU技术优势,结合AI加速芯片,以第四代至强可扩展CPU芯片(英特尔AMX:Advanced Matrix Extensions)叠加Gaudi 2,在中端市场与英伟达展开角逐。
其中,英特尔AMX的CPU AI推理性能不容忽略;而AMX在CPU AI推理和训练方面的能力,更成为英特尔结合其传统技术优势、推进强力竞争策略的底气。
在AI推理工作负载中,AMX的推理性能与英伟达A100 GPU相比超越5倍,与AMD的64核EPYC CPU相比可超2倍;在执行训练工作时,AMX的性能较英伟达A100 GPU有近3倍的性能提升,能在数秒或数分钟内完成训练,同时还能大幅降低用户成本。
英特尔公开展示了至强Max芯片运行Stable Diffusion模型的生成效果。Stable Diffusion模型能以文生图和以图生图,结果显示,基于AMX芯片运行,该模型仅用5.34秒,就生成了一张图像。
英特尔采用的以“CPU+AI加速器”的产品组合为基础的AI解决方案,用英特尔自己的话说,即“为在封闭生态系统中,寻求摆脱当前效率与规模限制的客户,提供极具竞争力的选择”。
在这个组合中,英特尔用兼具性能和每瓦能耗优势的Gaudi 2,做了用户细分需求的场景划分,并强调了目前超越英伟达A100 GPU、未来超越英伟达H100 GPU的性能、降低获取GPU的时间成本、能耗等方面的高性价比标签——什么是性价比——性价比的核心标签就是“省钱”,以此在中高端市场侵蚀英伟达的市场份额。
易用性和与原有系统的丝滑过渡也是英特尔AI市场策略的一部分。
“开箱即用”体现了易用性,Gaudi 2的SynapseAI软件套件集成了PyTorch和TensorFlow两种常见深度学习框架,还包括Megatron和DeepSpeed等主流LLM训练框架,这意味着开发者能做快速在不同硬件平台上做代码迁移。
迁移速度有多快?10分钟,还包括阅读文档的时间。
从推出专门的中国版Gaudi 2、采用Gaudi 2和两颗AMX芯片的浪潮新一代AI服务器NF5698G7落地速度看,英特尔尤为重视中国市场。
英特尔的中国用户也表达了对英特尔AI产品的认可。浪潮信息高级副总裁、AI&HPC产品线总经理刘军宣称,他们的算法工程师在实际体验中国版Gaudi 2后认为,其使用体验“与GPU基本没太大区别”。
没有太大区别,不等于毫无区别。
华尔街见闻注意到,英特尔此次推出的中国版Gaudi 2(也包括国际版在内),相对于英伟达A100的性能优势,集中在基于Residual(残差)结构的ResNet(残差网络)模型,而非GPT通用的Transformer架构的AGI模型,两者存在较大区别。
因此中国版Gaudi 2市场接受度究竟如何,在丰满和骨感之间,天平会侧重哪一端,仍需要时间做出回答。