迎战TPU与Trainium?英伟达再度发文“自证”:GB200 NVL72可将开源AI模型性能最高提升10倍

继公开喊话“领先行业一代”及私下反驳空头观点后,英伟达最新发布技术博文,称其GB200 NVL72系统可将开源AI模型的性能最高提升10倍,其系统通过硬件和软件的协同设计,解决了MoE模型在生产环境中的扩展难题,有效消除了传统部署中的性能瓶颈。

英伟达正面临来自谷歌TPU和亚马逊Trainium等竞争对手的挑战,为巩固其AI芯片市场主导地位,公司近期展开了一系列密集的技术“自证”与公开回应。继此前通过私函反驳看空观点、公开宣称其GPU技术“领先行业一代”后,英伟达再次发布技术博文,强调其GB200 NVL72系统可将顶尖开源AI模型的性能提升最高10倍。

12月4日,据媒体报道,英伟达发文称GB200 NVL72系统能够将顶级开源AI模型的性能提升多达10倍。该公司在周三的博客文章中重点强调了其服务器系统对混合专家模型(MoE)的优化能力,这些模型包括中国初创公司月之暗面开发的Kimi K2 Thinking和DeepSeek的R1模型。

英伟达一系列技术"自证"被视为对市场担忧的直接回应。此前有媒体报道称,英伟达的关键客户Meta正考虑在其数据中心大规模采用谷歌自研的AI芯片——张量处理单元(TPU)。据华尔街见闻,谷歌TPU直接挑战了英伟达在AI芯片市场超过90%的份额。市场担心,如果Meta这样的超大规模客户开始转向谷歌,将意味着英伟达坚不可摧的护城河出现了缺口。

英伟达密集发声并未改善市场担忧,公司股价近一个月跌幅已接近10%。

GB200 NVL72技术优势凸显

英伟达在官方博客中表示,其GB200 NVL72系统可以显著提高领先的开源 AI 模型的性能。博文中详细阐述了GB200 NVL72系统的技术优势。该系统将72颗NVIDIA Blackwell GPU集成为一个整体,提供1.4 exaflops的AI性能和30TB的快速共享内存。通过NVLink Switch连接,系统内部GPU间通信带宽达到130TB/s。

在性能测试中,被Artificial Analysis排行榜评为最智能开源模型的Kimi K2 Thinking在GB200 NVL72系统上实现了10倍性能提升。DeepSeek-R1和Mistral Large 3等其他顶级MoE模型同样获得显著性能改善。

混合专家模型(MoE)已成为前沿AI模型的主流选择。英伟达指出,Artificial Analysis排行榜前10名的开源模型均采用MoE架构,包括DeepSeek-R1、Kimi K2 Thinking和Mistral Large 3等。这种架构模仿人脑工作方式,仅激活处理特定任务所需的专门"专家"模块,而非调用全部模型参数,这使得MoE模型能够在不成比例增加计算成本的情况下,实现更快速、高效的token生成。

英伟达强调,其系统通过硬件和软件的协同设计,解决了MoE模型在生产环境中的扩展难题,有效消除了传统部署中的性能瓶颈。

云服务商部署加速落地

英伟达透露,GB200 NVL72系统正被主要云服务提供商和英伟达云合作伙伴部署,包括亚马逊云服务、Core42、CoreWeave、Crusoe、谷歌云、Lambda、微软Azure、Oracle云基础设施和Together AI等。

CoreWeave联合创始人兼首席技术官Peter Salanki表示:"在CoreWeave,我们的客户正在利用我们的平台将专家混合模型投入生产。通过与英伟达的密切合作,我们能够提供紧密集成的平台。"

Fireworks AI联合创始人兼CEO Lin Qiao指出:"英伟达GB200 NVL72的机架规模设计使MoE模型服务效率显著提升,为大规模MoE模型服务设立了新的性能和效率标杆。"据悉,该公司目前已在英伟达B200平台上部署Kimi K2模型,在Artificial Analysis排行榜上实现最高性能表现。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章