超越英伟达H100!英特尔推出新一代AI芯片Gaudi 3,大模型训练推理能力强化50%

硬AI
英特尔称,Gaudi 3可将Llama2和GPT-3模型的训练时间较H100平均缩短50%,将Llama和Falcon模型的推理吞吐量较H100平均提高50%、推理速度较英伟达H200提高30%。英特尔还推出第六代志强(Xeon)处理器,宣布谷歌云将运用其机密计算功能,将与多家企业合作打造企业AI的开放平台。

作者:李丹

来源:硬AI

英伟达的人工智能(AI)霸主地位面临新挑战,英特尔推出号称性能明显优于英伟达竞品的新一代AI芯片。

美东时间4月9日周二,在今年举办的客户与合作伙伴大会Intel Vision 2024期间,英特尔正式发布第三代英特尔AI加速器Gaudi 3。英特尔称,它将为企业应用生成式AI带来高性能、开放性和新选择。同时,英特尔还推出了一套全新的开放式可扩展系统、下一代产品和战略合作,加快生成式AI的应用。

去年发布新一代AI数据中心和个人电脑(PC)芯片新品时,英特尔CEO基辛格(Pat Gelsinger)就预告过,将推出用于深度学习和大型生成式AI模型的Gaudi 3。英特尔当时称,Gaudi 3的性能将优于英伟达的主打AI芯片H100。

本周二,基辛格在Intel Vision 2024大会上表示:“创新正在以前所未有的速度前进,这一切都是由芯片推动的——每家公司都在迅速成为AI公司。英特尔正在将AI带到整个企业的各个角落,从个人电脑(PC )到数据中心再到边缘(计算)。 我们(英特尔)最新的 Gaudi、至强(Xeon)和 Core 酷睿(Core)平台正在提供一套紧密结合的灵活解决方案,旨在满足客户和合作伙伴不断变化的需求,并充分利用未来的巨大机遇。”

Gaudi 3可将模型训练时间较H100缩短50%、推理吞吐量提高50%

英特尔介绍,Gaudi 3采用5纳米工艺制造,专为高效的大规模 AI 计算而设计,将为AI系统提供通过通用以太网标准连接的数以万计加速器支持。对于那些希望大规模配置生成式AI的企业来说,在大语言模型(LLM)和多模态模型的AI训练和推理方面,Gaudi 3可以实现性能和生产率的大飞跃。

英特尔称,对比前代,Gaudi 3可提供四倍的浮点格式BF16 AI计算能力,内存带宽提升1.5倍,服务于大规模系统扩展的网络带宽提升两倍。

对比英伟达的芯片H100,如果应用于7B和13B参数的Meta Llama2 模型以及175B参数的OpenAI GPT-3模型中,Gaudi 3预计可以让这些模型的训练时间平均缩短50%。

此外,应用于7B和70B参数的Llama以及180B参数的开源Falcon模型时,Gaudi 3的推理吞吐量预计将比H100平均高50%,推理功效平均高40%。而且,在较长的输入和输出序列上,Gaudi 3有更大的推理性能优势。

应用于7B和70B参数的Llama以及180B参数的Falcon模型时,Gaudi 3的推理速度相比英伟达H200提高30%。

英特尔称,Gaudi 3将在今年第三季度向客户供应,二季度向包括戴尔、HPE、联想和Supermicro在内的 OEM 厂商提供,但并未公布Gaudi 3的售价范围。

主管至强软件的英特尔副总裁 Das Kamhout称,英特尔预计,面对英伟达的最新产品,英特尔的Gaudi 3料将有很强的竞争力,“从我们具有竞争力的价格、我们独特的开放式集成片上网络来看,我们正在使用行业标准以太网。 我们相信这是一个强大的产品。”

英特尔AI解决方案客户包括IBM等 谷歌云将运用机密计算功能

在Intel Vision 2024期间,英特尔介绍其开放可扩展AI系统的战略,包括硬件、软件、框架和工具。

英特尔称,这种方式让AI领域的参与者能建立了广泛、开放的生态系统,从而提供满足企业特定生成式AI需求的解决方案。英特尔战略服务的客户包括设备制造商、数据库提供商、系统集成商、软件和服务提供商等,比如使用Gaudi芯片的NAVER、在其数据库应用第五代至强处理器的IBM、将与印度客户合作打造AI超级计算机的CtrlS Group。

英特尔还宣布与谷歌云、Thales 和 Cohesity 合作,这三家合作方将在其云实例中运用英特尔的机密计算功能。

与多家企业合作打造企业AI的开放平台

Intel Vision 2024期间,英特尔还宣布与 Anyscale、Articul8、DataStax、Domino、Hugging Face、KX Systems、MariaDB、MinIO、Qdrant、红帽(RedHat)、Redis、SAP、VMware、Yellowbrick 和 Zilliz 合作,有意为企业AI创建一个开放平台。

英特尔称,这种全行业的努力旨在开发开放的多供应商生成式AI系统,通过检索增强生成(RAG)让企业用户达到一流的性能且易于部署生成式AI。在RAG加持的生态系统,通过开放的 LLM 功能,企业能增强在标准云基础设施上运行大量现有专有数据源的能力,从而加快生成式AI在企业的应用。

作为这项工作的第一步,英特尔将在基于安全英特尔至强和Gaudi 的解决方案发布生成式AI管道的参考实现,发布技术概念框架,并继续在英特尔 Tiber 开发者云中增加基础设施容量,以实现RAG的生态系统开发和验证以及未来的管道。

发布面向企业AI的第六代志强(Xeon)处理器

除了Gaudi 3加速器,英特尔还发布了另一硬件:第六代志强(Xeon)处理器。它提供高性能的解决方案,运行包括RAG在内的当前生成式AI解决方案。面向所有企业AI,将于今年第二季度问世。

英特尔介绍,相比二代英特尔至强处理器,代号Sierra Forest的E核六代志强处理器每瓦性能提高四倍,机架密度提高 2.7 倍。

代号 Granite Rapids的P核六代志强处理器纳入对 MXFP4 数据格式的软件支持,相比使用 FP16 的第四代至强处理器,它的下一个token延迟最多可减少6.5 倍,并且能运行 700 亿个参数的 Llama-2模型。

网友评论

虽然英特尔声称Gaudi的性能明显强于H100,但一些网友似乎并不太看好Gaudi的前景。

有一条3400多赞的网友评论称,也许Gaudi 3是一款更快、更高效的芯片,但如果市场仍然选择英伟达的H100 芯片,这真的很重要吗? 英特尔是科技资本枯萎消亡的地方。

还有一条评论称,如果英特尔发布一款比H100 快十倍的产品,那会不会很重要。

有一条上千点赞的评论提到了谷歌也在周二推出新的芯片,称过去一年涌现了很多新的芯片故事,不知道Meta的芯片在哪里。

另一条上千点赞的评论问,现在谁还在使用英特尔架构进行高速计算呢?

还有一条上千点赞的评论称,值得注意的是,英特尔有3纳米的产能,英伟达没有。 因此,如果是势均力敌的竞争,应该对英特尔有利。

本文来自微信公众号“硬AI”,关注更多AI前沿资讯请移步这里

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。