黄仁勋CES演讲全文来了!Rubin全面投产,算力暴涨5倍,砸掉智驾门槛All in物理世界

英伟达Vera Rubin平台全面投产,通过“极端协同设计”将AI推理性能提升5倍、成本降至1/10,直击智能体“算不起、记不住”痛点。黄仁勋宣告AI进入“会思考”下半场,高呼“物理AI的ChatGPT时刻已近”。通过开源智能驾驶模型Alpamayo模型与西门子合作,英伟达展示了从芯片到机器人的全栈拼图。

北京时间6日凌晨5点,美国拉斯维加斯,在全球“科技春晚”——国际消费电子展(CES)的聚光灯下,英伟达CEO黄仁勋身着标志性的鳄鱼皮纹黑色夹克跑步登台。

AI竞赛已经开始,所有人都在努力达到下一个水平……如果你不进行全栈的极端协同设计,根本无法跟上模型每年增长10倍的速度。”面对资本市场对“AI泡沫”的隐忧和摩尔定律失效的焦虑,黄仁勋用一套名为Vera Rubin的全新架构,向外界证明:英伟达依然掌握着定义AI未来的绝对权力。

这次演讲不同于以往单纯发布显卡,老黄这次虽然没有带来GeForce新品,却用“All in AI”、“All in 物理AI”的姿态,向资本市场展示了一张从原子级芯片设计到物理世界机器人落地的完整拼图。

演讲三大主线:

  • 在基础设施与算力层面,英伟达通过“极端协同设计”暴力破解物理极限,重构了数据中心的成本逻辑。 面对晶体管数量仅增长1.6倍的瓶颈,英伟达通过Vera Rubin平台、NVLink 6互联以及BlueField-4驱动的推理上下文内存存储平台,强行将推理性能提升5倍,并将Token生成成本压低至1/10。这一层面的核心目标是解决Agentic AI(代理智能体)“算不起”和“记不住”(显存墙)的问题,为AI从训练向大规模推理转移铺平道路。

  • 在模型演进层面,英伟达正式确立了从“生成式AI”向“推理型AI”(Test-time Scaling)的范式转移。 黄仁勋强调AI已不再是一次性的问答,而是需要多步思考和规划的思维链过程。通过开源Alpamayo(自动驾驶推理)、Cosmos(物理世界模型)以及Nemotron(智能体)系列模型,英伟达正在推动AI具备逻辑推理能力和长时记忆能力,使其能处理未见过的复杂长尾场景。

  • 在物理落地层面,英伟达宣布“物理AI”正式进入商业变现期,打破了AI仅存于屏幕的局面。 演讲明确了2026年Q1梅赛德斯-奔驰实车上路的时间表,并展示了与西门子在工业元宇宙的深度全栈合作。通过将Omniverse模拟环境、合成数据生成与机器人控制模型打通,英伟达正在将AI能力从互联网云端这一“软世界”,大规模注入到汽车、工厂、机器人等“硬世界”中。

演讲要点:

  • Vera Rubin平台全面投产:新一代AI计算平台的全部六款核心芯片已完成制造和关键测试,已进入全面生产阶段。在晶体管仅增长1.6倍的物理极限下,通过“极端协同设计”强行实现5倍推理性能提升,训练性能提升3.5倍。微软下一代AI超级工厂将部署数十万颗Vera Rubin芯片。

  • Rubin推理成本较Blackwell降10倍:明确回应市场对AI太贵的质疑,Rubin将推理Token生成成本压低至Blackwell的1/10,让高昂的Agentic AI具备商业可行性。

  • 解决AI“记忆”瓶颈:利用BlueField-4 DPU构建推理上下文内存存储平台,为每颗GPU凭空增加16TB高速共享内存,彻底解决长文本“显存墙”问题。

  • 物理AI变现时刻:发布“具备推理能力”的自动驾驶模型Alpamayo,明确2026年Q1随梅赛德斯-奔驰实车上路,开启物理AI营收周期。

  • 能源经济学重构:Rubin架构支持45℃温水冷却,无需冷水机组,直接为全球数据中心节省6%的电力。

  • 开源生态扩张:宣布扩展其开源模型生态,覆盖物理AI、自动驾驶、机器人、生物医学等多个关键领域,并提供配套数据集和工具链。

  • 工业元宇宙落地:与西门子达成深度全栈合作,将英伟达AI技术植入全球工业制造底层,从“设计芯片”延伸至“设计工厂”。

新王亮相:Rubin平台全面投产,推理成本较Blackwell降10倍

“Vera Rubin已经全面投产。”黄仁勋宣布在CES展会推出新一代Rubin AI平台,该平台通过六款新芯片的集成设计,在推理成本和训练效率上实现大幅跃升,将于2026年下半年交付首批客户。

这也是市场最为关切的消息。他将Rubin GPU形容为“一只巨大的怪兽(It's a giant ship)”,并详尽阐述了背后的逻辑:“AI的推理成本每年要下降10倍,而AI‘思考’(Test-time Scaling)产生的token数量每年增长5倍。”在这两股力量的巨大拉扯下,传统芯片的迭代节奏无法满足要求。

黄仁勋用一个生动的比喻来解释新一代AI芯片的设计思路:“这不是简单地造一个更好的引擎,而是重新设计整辆车,让引擎、传动、底盘协同工作。”“它的AI浮点性能是Blackwell的5倍,但晶体管数量仅为后者的1.6倍。”黄仁勋强调,这种超出摩尔定律常规预期的性能飞跃,源自于“极端协同设计”。

他所指的“协同”涵盖了从CPU、GPU、网络芯片到整个冷却系统的全方位重构。这种设计的实际效果直接反映在市场最敏感的成本指标上:推理成本最高可降至Blackwell平台的1/10。具体来看:

  • 算力: Rubin GPU在NVFP4精度下的推理性能达到50 PFLOPS(Blackwell的5倍),训练性能35 PFLOPS(较上代提升3.5倍)。每颗GPU封装8组HBM4内存,带宽高达22 TB/s。

  • CPU黑科技: 全新的Vera CPU集成了88个定制Olympus Arm核心,采用了一种名为“空间多线程”(Spatial Multi-threading)的设计,可同时高效运行176个线程,解决了CPU跟不上GPU吞吐的痛点。

  • 连接: NVLink 6将机架内的通信带宽推高至惊人的240 TB/s,是全球互联网总带宽的两倍以上。

AI的下半场:从“死记硬背”到“逻辑思考”

演讲中,黄仁勋敏锐地捕捉到了AI模型侧的根本性变化——Test-time Scaling(测试时扩展)

“推理不再是一次性的回答,而是一个思考的过程。”他指出,随着DeepSeek R1和OpenAI o1等模型的出现,AI开始展现出思维链(Chain of Thought)能力。这意味着AI在给出答案前,需要消耗大量的算力进行多步推理、反思和规划。

对于投资者而言,这是一个巨大的增量信号:未来的算力消耗将从“训练侧”大规模转移到“推理侧”。为了支撑这种“让AI多想一会儿”的需求,算力必须足够便宜。Rubin架构的核心使命,就是将MoE(混合专家模型)的推理Token生成成本降低至Blackwell的1/10。只有将成本打下来,能够处理复杂任务的Agentic AI(代理智能体)才具备商业落地的可能性。

突破瓶颈:如何让AI“记住”更长的对话

而当AI从简单的问答转向长时间的复杂推理时,一个新的瓶颈出现了——记忆。

在Agentic AI时代,智能体需要记住漫长的对话历史和复杂的上下文,这会产生巨大的KV Cache(键值缓存)。传统的解决方案是将这些数据塞进昂贵的HBM显存中,但HBM容量有限且价格高昂,这被称为“显存墙”。

黄仁勋详细解释了这一问题:“AI的工作记忆存储在HBM内存中。每生成一个token,它都要读取整个模型和所有工作记忆。”对于需要长期运行、拥有持续记忆的AI智能体,这种架构显然不可持续。

解决方案是一套全新的存储架构。黄仁勋亮出了他的秘密武器:基于BlueField-4 DPU构建的推理上下文内存存储平台(Inference Context Memory Storage Platform)

他指着舞台上那个巨大的机架系统解释道:“在每个GPU原有1TB内存的基础上,我们通过这个平台为每个GPU额外增加了16TB的‘思考空间’。”这个平台被放置在离计算单元最近的位置,通过高达200Gb/s的带宽连接,避免了传统存储带来的延迟瓶颈。

这一设计直接回应了市场对AI应用规模化部署的担忧:没有足够大且快速的内存,AI就无法真正成为我们长期的、个性化的助手

物理AI落地:不画饼,Q1智驾汽车直接上路

黄仁勋将演讲的第二部分聚焦于一个更宏大的主题:“物理AI的ChatGPT时刻已到来——机器开始理解、推理并在真实世界中行动。

为了证明AI不仅仅能聊天,黄仁勋发布了全球首款开源的VLA(视觉-语言-行动)自动驾驶推理模型——Alpamayo。与传统自动驾驶不同,Alpamayo能“解释”自己的决策。

这不仅仅是一个驾驶模型,而是一个能解释自己思考过程的模型。”黄仁勋播放了一段演示视频,Alpamayo不仅能驾驶汽车,还能用自然语言解释自己的决策逻辑,例如“前方车辆刹车灯亮起,它可能减速,所以我应该保持距离”。

这种“可解释的AI”对于解决自动驾驶的长尾问题至关重要。黄仁勋坦言:“我们不可能收集世界上所有可能的驾驶场景。但我们可以让AI学会‘推理’,将陌生场景分解为已知的元素组合。

这一技术即将走向商业化。黄仁勋宣布:“首款搭载英伟达全栈DRIVE系统的梅赛德斯-奔驰CLA车型将于2026年第一季度在美国上路。”这标志着英伟达的AI技术首次完整地应用于量产汽车。

硅光技术(CPO)与温水冷却:为全球数据中心省电6%

在连接与散热层面,英伟达也展示了统治级的技术储备。

首先是光通信的革命。黄仁勋正式发布了采用“共封装光学(CPO)”技术的Spectrum-6以太网交换机(SN688/SN6810)。

他明确表示:“与不具备硅光子技术的硬件相比,它们在能效、可靠性和运行时间方面表现更优。”这意味着CPO不再是实验室里的概念,而是已经进入了英伟达的量产清单,光模块产业链将迎来从可插拔向CPO转型的实质性时刻。

其次是能源经济学的重构。AI的高能耗一直是悬在头顶的达摩克利斯之剑。Rubin NVL72机架实现了100%液冷,且支持45摄氏度的进水温度。这意味数据中心不再需要高能耗的冷水机组(Chillers)来制造冷水,直接利用自然冷却或温水循环即可散热。黄仁勋自豪地宣布,这将为全球数据中心节省6%的电力。这对于电力配额捉襟见肘的北美数据中心市场来说,是一个无法拒绝的诱惑。

工业界联盟:AI如何改变万亿美元的传统产业

如果物理AI仅停留在汽车领域,其想象空间或许有限。但黄仁勋展示了更广阔的图景——工业制造

我们必须设计制造这些AI芯片的工厂,而这些工厂本身就是巨大的机器人。”黄仁勋用这一逻辑将话题转向了工业制造领域的巨头——西门子。

他宣布与西门子达成深度战略合作:“我们将英伟达的物理AI、代理AI模型和Omniverse平台深度集成到西门子的工业软件与数字孪生工具链中。

这一合作的规模远超普通的技术集成。黄仁勋解释道:“你将在这些平台上设计你的芯片和系统,在计算机中模拟整个制造流程,甚至在它们接触重力之前完成测试和评估。

这种合作标志着英伟达AI技术从数据中心向实体经济的全面渗透。当AI不仅能生成文本和图像,还能设计、模拟和优化物理世界的复杂系统时,其市场潜力将从互联网经济扩展至全球工业经济

开放生态战略:如何应对开源模型的冲击

面对日益强大的开源模型,黄仁勋没有回避,而是展示了英伟达的应对策略——成为开源的领导者而非被动应对者

我们是前沿AI模型的建设者,而且我们以一种非常特殊的方式构建它——完全开放。”黄仁勋宣布扩展英伟达的“开放模型宇宙”,涵盖了从生物医学到物理世界的六大领域。

他特别强调了开源带来的产业激活效应:“当开放创新、全球协作真正启动后,AI的扩散速度会极快。

英伟达的开源不是简单的代码释放,而是全套工具链的开放,包括训练数据、模型架构、评估工具等。这种策略的智慧在于:与其被开源社区颠覆,不如主动塑造开源生态的标准和方向。

随着英伟达的技术从芯片延伸到系统,从云端渗透到物理世界,这家公司正在构建的已不再仅仅是计算平台,而是一个AI驱动的新世界基础架构。

演讲全文如下(翻译由AI工具辅助):

黄仁勋:

你好,拉斯维加斯!新年快乐!欢迎大家。好吧,我们大概准备了相当于15场主题演讲的内容要塞进这场发布会里。很高兴见到你们所有人。现场有3000名观众,外面的庭院里还有2000人在观看,据说四楼还有1000人在英伟达的展区观看这场直播。当然,全球还有数百万观众在线上收看,与我们共同开启这个新年。

每隔10到15年,计算机行业就会重启一次。从大型机到PC,到互联网,到云,再到移动端,新的平台转移不断发生。每一次,应用世界都会瞄准一个新的平台。这就是为什么它被称为平台转移。你为新计算机编写新应用,但这一次,实际上有两个平台转移同时发生。当我们转向AI时,应用程序现在将建立在AI之上。起初,人们认为AI就是应用程序。事实上,AI确实是应用程序,但你们将在AI之上构建应用程序。除此之外,软件的运行方式、软件的开发方式也发生了根本性变化。计算机行业的整个核心堆栈正在被重塑。你不再是对软件进行编程,而是训练软件。你不在CPU上运行它,而是在GPU上运行它。以前的应用程序是预先录制、预先编译并在设备上运行的,而现在的应用程序能够理解上下文,并完全从零开始生成每一个像素、每一个Token。

每一次都是如此。由于加速计算和人工智能,计算已被根本性重塑。这五层蛋糕的每一层都在被重新发明。这意味着过去十年中约10万亿美元的计算基础设施正在向这种新的计算方式现代化转型。这意味着每年有数千亿美元、几千亿美元的风险投资正在投入到现代化和发明这个新世界中。这意味着价值100万亿美元的产业,其中几个百分点是研发预算,正在转向人工智能。人们问,钱从哪里来?这就是钱的来源。从传统IT向AI的现代化,研发预算从经典方法向人工智能方法的转移。巨大的投资正涌入这个行业,这也解释了为什么我们如此忙碌。去年也不例外。

去年是不可思议的一年。这有一张幻灯片要放……这就是当你没彩排就开场的结果,这是今年的第一场主题演讲。希望这也是你们今年的第一场。否则,如果你们来这里之前已经很忙了,那就算了。这是我们今年的第一场,我们要把蜘蛛网扫干净。2025年是令人难以置信的一年。似乎所有事情都在同一时间发生。事实上,可能确实如此。首先当然是缩放定律(Scaling Laws)。2015年,第一个我认为真正会产生影响的语言模型出现了,它确实产生了巨大影响,它叫BERT。2017年,Transformer来了。

直到五年后的2022年,ChatGPT时刻发生了。它唤醒了世界对人工智能可能性的认知。一年后发生了一件非常重要的事情。来自ChatGPT的首个o1模型,首个推理模型,完全革命性地发明了这个叫做**“测试时扩展”(Test-time Scaling)的概念,这其实是非常常识性的东西。我们不仅预训练模型让其学习,我们还在训练后通过强化学习让它学习技能。现在我们还有了测试时扩展,换句话说就是“思考”,你在实时地思考。人工智能的每一个阶段都需要大量的计算,计算定律继续扩展。大语言模型继续变得更好。

与此同时,另一个突破发生了,这一突破发生在2024年。Agentic(代理/智能体)系统开始出现。2025年,它开始普及,几乎遍布各地。能够推理、查找信息、做研究、使用工具、规划未来、模拟结果的代理模型,突然开始解决非常重要的问题。我最喜欢的代理模型之一叫做Cursor,它彻底改变了我们在英伟达进行软件编程的方式。Agentic系统将从这里真正腾飞。

当然,还有其他类型的AI。我们知道大语言模型并不是唯一的信息类型。只要宇宙中有信息,只要宇宙有结构,我们就可以教一个大语言模型、一种形式的语言模型去理解这些信息,理解其表征,并将其转化为AI。其中最大、最重要的一类是理解自然法则的物理AI(Physical AI)。当然,物理AI是关于AI与世界互动的。但世界本身就有信息,编码的信息,这被称为AI,物理AI。在物理AI的情况下,你有与物理世界互动的AI,也有理解物理定律的AI,即AI物理学。

最后,去年发生的最重要的事情之一是开放模型(Open Models)的进步。我们现在知道,当开源、当开放创新、当全球每一家公司和每一个行业的创新同时被激活时,AI将无处不在。去年,开放模型真正起飞了。事实上,去年我们见证了DeepSeek R1的进步,这是第一个开放模型。那是一个推理系统。它让世界大吃一惊,并真正激活了这整个运动。非常令人兴奋的工作。我们对此感到非常高兴。现在我们在世界各地有各种不同类型的开放模型系统。我们现在知道,开放模型也已经触及前沿,虽然仍稳固地落后前沿模型六个月,但每隔六个月,一个新的模型就会出现,而且由于这个原因,这些模型正变得越来越聪明。你可以看到下载量已经爆炸式增长。下载量增长如此之快,是因为初创公司希望参与AI革命。大公司想参与,研究人员想参与,学生想参与,几乎每个国家都想参与。

数字形式的智能怎么可能抛下任何人?因此,开放模型去年真正彻底改变了人工智能。整个行业将因此被重塑。

几年前我们就有了这种预感,你们可能听说过,几年前我们就开始构建和运营自己的AI超级计算机,我们称之为DGX Cloud。很多人问,你们是要进入云业务吗?答案是否定的。我们构建这些DGX超级计算机是为了自己使用。结果证明,我们运营着价值数十亿美元的超级计算机,以便我们可以开发我们的开放模型。

我对我们正在做的工作感到非常高兴。它开始吸引全世界和各行各业的关注,因为我们在如此多的不同领域进行前沿AI模型工作。我们在蛋白质、数字生物学领域的工作,Llama Protina,能够合成和生成蛋白质。OpenFold 3,去理解蛋白质的结构。Evo 2,如何理解和生成多种蛋白质。这也是细胞表征的开端。

Earth 2,理解物理定律的AI。我们利用ForecastNet所做的工作,利用Cordiff所做的工作,真正彻底改变了人们进行天气预测的方式。NeMo Tron,我们正在那里做开创性的工作,第一个混合Transformer SSM模型,速度极快,因此可以思考很长时间,或者可以在不花很长时间的情况下非常快速地思考并产生非常聪明、智能的答案。NeMo Tron 3是开创性的工作,你们可以期待我们在不久的将来交付NeMo Tron 3的其他版本。

Cosmos,一个前沿的开放世界基础模型,一个理解世界如何运作的模型。GR00T,一个类人机器人系统,涉及关节、移动性、运动。这些模型、这些技术现在正在被集成,在每一个案例中都向世界开放,前沿的人形机器人模型向世界开放。今天我们要谈一点关于Alpamayo,我们在自动驾驶汽车方面所做的工作。我们不仅开源了模型,还开源了我们用来训练这些模型的数据。因为只有这样,你才能真正信任模型的来源。我们开源所有模型。我们帮助你们从中制作衍生品。

我们有一整套库。我们称之为NeMo库,物理NeMo库,以及Clara NeMo库,每一个BioNeMo库。每一个库都是AI的生命周期管理系统,以便你可以处理数据、生成数据、训练模型、创建模型、评估模型、为模型设置护栏,直到部署模型。每一个库都极其复杂,而且全部开源。所以现在在这个平台上,英伟达是一个前沿AI模型构建者,我们以一种非常特殊的方式构建它。我们完全在公开环境中构建它,以便我们可以赋能每一家公司、每一个行业、每一个国家成为这场AI革命的一部分。

我为我们在那里所做的工作感到无比自豪。事实上,如果你注意到趋势、图表,图表显示我们对这个行业的贡献是首屈一指的。实际上你会看到我们将继续这样做,甚至加速。

这些模型也是世界级的。所有系统都瘫痪了。这在圣克拉拉从来没发生过。是因为拉斯维加斯吗?肯定有人在外面中了头奖。所有系统都瘫痪了。好吧。我想我的系统还没恢复,但这没关系。我会在进行中即兴发挥。不仅这些模型具有前沿能力,不仅它们是开放的,它们还在排行榜上名列前茅。

这是我们非常自豪的一个领域。它们在智能排行榜上名列前茅。我们有重要的模型能够理解多模态文档,也就是PDF。世界上最有价值的内容都捕捉在PDF中。但这需要人工智能来找出里面的内容,解释里面的内容并帮助你阅读它。所以我们的PDF检索器、我们的PDF解析器是世界级的,我们的语音识别模型绝对是世界级的。我们的检索模型,基本上是现代AI时代的搜索引擎语义搜索AI、数据库引擎,也是世界级的。所以我们经常在排行榜上名列前茅。

这是一个我们非常自豪的领域,所有这些都是为了服务于你们构建AI代理(AI Agents)的能力。这真的是一个开创性的发展领域。你知道,当ChatGPT刚出来的时候,人们说,天哪,它产生了非常有趣的结果,但幻觉非常严重。产生幻觉的原因当然是因为它可以记住过去的一切,但它无法记住未来或当前的一切。因此它需要扎根于研究。在回答问题之前,它必须进行基础研究。推理的能力——我是否需要做研究?我是否需要使用工具?我如何将一个问题分解成步骤?每一个步骤都是AI模型知道如何做的事情。而在它们组合在一起时,它能够按顺序执行从未做过、从未受过训练去执行的事情。

这就是推理的美妙能力。我们可以遇到以前从未见过的情况,并将其分解为我们知道如何做的情境、知识或规则,因为我们在过去经历过。因此,AI模型现在能够进行推理的能力极其强大,代理的推理能力打开了通往所有这些不同应用的大门。我们不再需要在第一天就训练一个AI模型知道所有事情,就像我们不需要在第一天就知道所有事情一样,我们应该能够在每种情况下推理如何解决那个问题。

大语言模型现在已经实现了这一根本性的飞跃,使用强化学习和思维链(Chain of Thought)、搜索和规划以及所有这些不同的技术和强化学习的能力,使得我们拥有这种基本能力成为可能,而且现在也完全开源了。

但真正棒的是另一个突破。我第一次看到它是在Aravind的Perplexity上。那家搜索公司,AI搜索公司,真正创新、真正的公司。我第一次意识到他们同时使用多个模型时,我觉得这完全是天才之举。当然,我们也会那样做。

当然,AI也会在推理链的任何部分调用世界上所有伟大的AI来解决它想要解决的问题。这就是为什么AI实际上是多模态的(Multi-modal),意味着它们理解语音、图像、文本、视频、3D图形和蛋白质。那是多模态。它也是多模型(Multi-model)的,意味着它们应该能够使用任何最适合任务的模型。根据定义,它是多云的,因为这些AI模型位于所有这些不同的地方。它也是混合云,因为如果你是一家企业公司或你建造了一个机器人或任何设备,有时它在边缘,有时是无线电蜂窝塔,有时是在企业内部,或者可能是在医院这样你需要数据实时就在你身边的地方。

无论那些应用是什么,我们现在知道这就是未来AI应用的样子。或者换个方式思考,因为未来的应用是建立在AI之上的。这是未来应用的基本框架。这个基本框架,这种能够做我所说的事情的代理AI的基本结构,它是多模型的,现在已经为各种AI初创公司增压。现在你也因为我们提供的所有开放模型和所有工具,你可以定制你的AI,教你的AI其他人没有教的技能。没有其他人让他们的AI变得如此智能,如此聪明。你可以为自己做这件事。这就是我们在NeMo Tron、NeMo以及我们在开放模型方面所做的一切工作的意图。你在它前面放一个智能路由器,那个路由器本质上是一个管理者,它根据你给它的提示意图,决定哪个模型最适合该应用,最适合解决那个问题。

好的,当你思考这个架构时,你得到了什么?当你思考这个架构时,突然之间你拥有了一个一方面完全由你定制的 AI。你可以教它为你公司做特定的技能,那些领域机密的东西,那些你拥有深厚领域专业知识的东西,也许你拥有训练该 AI 模型所需的所有数据。另一方面,你的 AI 永远处于前沿。根据定义,你一方面永远在前沿,另一方面永远是定制的,而且它应该就能运行。

所以我们认为我们会制作最简单的示例,向你们提供这个完整的框架。我们称之为蓝图(Blueprint)。我们有集成到全球企业 SaaS 平台中的蓝图,我们对进展感到非常高兴。但我们要向你们展示一个任何人都可以做的简短示例。

演示视频:
让我们构建一个个人助理。我希望它能帮我处理日历、电子邮件、待办事项列表,甚至帮我照看家里。我使用 Brev 将我的 DGX Spark 变成个人云。所以我可以使用相同的界面,无论我使用的是云 GPU 还是 DGX Spark。我使用前沿模型 API 轻松上手。我希望它帮我处理电子邮件,所以我为我的智能体创建了一个电子邮件工具。我希望我的电子邮件保持私密,所以我添加了一个在 Spark 上本地运行的开放模型。

现在,对于任何工作,我都希望智能体使用正确的模型来完成任务,所以我将使用一个基于意图的模型路由器。这样,需要电子邮件的提示将留在我的 Spark 上,其他所有内容都可以调用前沿模型。我希望我的助手与我的世界互动,所以我将它连接到 Hugging Face 的 Richie 迷你机器人。我的智能体通过工具调用控制 Richie 的头、耳朵和摄像头。

黄仁勋:
调用。

演示视频:
我想给 Richie 一个声音,我很喜欢 ElevenLabs,所以我连接了他们的 API。

Richie 机器人:
嗨,我是 Richie,运行在 DGX 上。

演示视频:
嘿,Richie,今天我的待办事项清单上有什么?

演示视频:
你今天的待办事项:买杂货——鸡蛋、牛奶、黄油,还要给 Jensen 发送新脚本。

演示视频:
好的,让我们给 Jensen 发送那个更新。告诉他我们会在今天结束前给他。

演示视频:
好的。

演示视频:
Richie,这里还有一个草图。你能把它变成建筑渲染图吗?

演示视频:
当然。

演示视频:
不错。现在制作一个视频,带我参观一下房间。

演示视频:
给你。

演示视频:
太棒了。有了 Brev,我可以分享对我的 Spark 和 Richie 的访问权限。所以我打算把它分享给 Anna。

演示视频:
嘿,Richie,Potato(宠物狗)在干什么?

演示视频:
它在沙发上。我记得你不喜欢这样。我会叫它下来。Potato,下沙发。

演示视频:
随着开源的所有进展,看到你能构建什么真是不可思议。我很想看看你们创造了什么。

黄仁勋:
这难道不令人难以置信吗?现在令人惊讶的是,这已经变得微不足道了。然而就在几年前,这一切都是不可能的,绝对无法想象的。好吧,这个基本框架,这种构建应用程序的基本方式——使用预训练的、专有的前沿语言模型,结合定制的语言模型,进入一个智能体框架(Agentic Framework),一个允许你访问工具、文件甚至连接到其他智能体的推理框架。这基本上就是 AI 应用或现代应用的架构。

我们要创建这些应用程序的能力非常快。注意,如果你给它以前从未见过的应用信息,或者以一种并未完全按你所想的方式呈现的结构,它仍然可以推理并尽最大努力去推理数据和信息,试图理解如何解决问题。这就是人工智能。

这种基本框架现在正在被整合。刚才我描述的一切,我们有幸与一些世界领先的企业平台公司合作。例如 Palantir,他们的整个 AI 和数据处理平台今天正在被 NVIDIA 加速并整合。ServiceNow,世界领先的客户服务和员工服务平台。Snowflake,云端顶级数据平台,那里正在进行令人难以置信的工作。Code Rabbit,我们在 NVIDIA 随处都在使用它。CrowdStrike,创建 AI 来检测和定义 AI 威胁。NetApp,他们的数据平台现在上面有了 NVIDIA 的语义 AI,一个用于客户服务的智能体系统。

但重要的是:这不仅是你现在开发应用程序的方式,这还将成为你平台的用户界面。无论你是 Palantir、ServiceNow、Snowflake 还是我们合作的许多其他公司,智能体系统就是界面。不再是 Excel 里填满方格输入信息,也许不再只是命令行。所有这些多模态信息现在都成为可能,你与平台互动的方式更加——如果你愿意的话——简单,就像你在与人互动一样。这就是被智能体系统革命化的企业 AI。

接下来是物理AI(Physical AI)。这是一个你们看我谈论了几年的领域。事实上,我们已经为此努力了八年。问题是,你如何将计算机内部的智能,那些通过屏幕和扬声器与你互动的智能,转变为可以与世界互动的智能,意味着它可以理解世界运作的常识。

物体恒存性。如果我看向别处再看回来,那个物体还在那里。因果关系。如果我推它,它会倒下。它理解摩擦力和重力。它理解惯性。一辆重型卡车沿路滚下需要更多时间停下来,而一个球会继续滚动。

这些概念对一个小孩子来说都是常识,但对AI来说完全未知。所以我们必须创建一个系统,允许AI学习物理世界的常识,学习其定律,当然也要能够从数据中学习。数据非常稀缺,并且要能够评估那个AI是否在工作,意味着它必须在环境中进行模拟。如果AI没有能力模拟物理世界对其行动的反应,它怎么知道它正在执行的行动是否符合它应该做的?对其行动反应的模拟对于评估非常重要。否则,就没有办法评估它。每次都不一样。所以这个基本系统需要三台计算机。一台计算机,当然是我们知道英伟达制造的用于训练AI模型的。另一台计算机是用于推理模型的,推理计算机本质上是一台机器人计算机,运行在汽车里或机器人里或工厂里,运行在边缘的任何地方。

但必须有另一台设计用于模拟的计算机。模拟几乎是英伟达所做一切的核心。这是我们最舒适的地方,模拟真的是我们用物理AI所做几乎一切的基础。所以我们有三台计算机和运行在这些计算机上的多个堆栈,这些库使它们变得有用。Omniverse是我们的数字孪生、基于物理的模拟世界。Cosmos,如我之前提到的,是我们的基础模型,不是语言的基础模型,而是世界的基础模型,并且也与语言对齐。你可以说像“球发生了什么?”它会告诉你球正滚下街道。所以是一个世界基础模型。然后当然是机器人模型。我们有两个。一个叫GR00T,另一个叫Alpamayo,我现在要告诉你们。

我们对物理 AI 必须做的最重要的事情之一是创建数据来首先训练 AI。数据从哪里来?与其像语言那样因为我们创建了大量文本作为 AI 学习的“基准真理(Ground Truth)”,我们如何教 AI 物理的基准真理?有很多很多视频,但很难捕捉到我们需要的多样性和交互类型。所以这就是伟大的头脑聚集在一起,将曾经的计算转化为数据的地方。

现在使用以物理定律为基础和条件、以基准真理为基础和条件的合成数据生成(Synthetic Data Generation),我们可以选择性地、巧妙地生成我们可以用来训练 AI 的数据。例如,进入左边这个 Cosmos AI 世界模型的是交通模拟器的输出。现在这个交通模拟器对于 AI 学习来说远远不够。我们可以把它放入 Cosmos 基础模型中,生成基于物理且在物理上合理的环绕视频,AI 现在可以从中学习。这方面有很多例子。让我向你们展示 Cosmos 能做什么。

“物理AI的ChatGPT时刻即将到来。”

Cosmos是世界领先的基础模型,世界基础模型。它已被下载数百万次,在世界各地使用,让世界为这个物理AI的新时代做好准备。我们也自己使用它。我们自己使用它来创建我们的自动驾驶汽车,用于场景生成和评估。我们可以拥有让我们有效行驶数十亿、数万亿英里,但在计算机内部完成的东西。我们取得了巨大的进步。今天,我们宣布Alpamayo,世界上第一款会思考、推理的自动驾驶汽车AI。

Alpamayo是端到端训练的,字面意思是从摄像头输入到执行输出。摄像头输入大量由它自己驾驶的里程,或是我们人类驾驶的,使用人类演示。我们还有大量由Cosmos生成的里程。除此之外,成千上万的例子被非常仔细地标记,以便我们可以教汽车如何驾驶。

Alpamayo做了一些非常特别的事情。它不仅接收传感器输入并激活方向盘、刹车和加速,它还推理它将要采取的行动。它告诉你它将要采取什么行动,它得出那个行动的理由,当然还有轨迹。所有这些都直接耦合,并由大量人类训练以及Cosmos生成的数据非常具体地训练。结果真的令人难以置信。你的车不仅像你期望的那样驾驶,而且它驾驶得如此自然,因为它直接从人类演示者那里学习。但在每一个场景中,当它遇到场景时,它会推理,它告诉你它要做什么,并推理它将要做什么。

为什么这如此重要?因为驾驶的长尾效应。我们不可能简单地为每个国家、每种情况、所有人口可能发生的每一件可能的事情收集每一个可能的场景。然而,每种场景很有可能分解成一大堆其他较小的场景,这对你来说理解起来很正常。因此,这些长尾将被分解成汽车知道如何处理的相当正常的情况,它只需要对其进行推理。

让我们来看一下。你们即将看到的一切都是一次通过,不需动手。

视频演示(车内导航语音):
正在导航至目的地。系好安全带。

(视频播放:自动驾驶过程)

视频演示:
你已到达。

黄仁勋:

我们在八年前开始研究自动驾驶汽车。原因是我们早就推断深度学习和人工智能将彻底重塑整个计算堆栈。如果我们想要理解如何导航并引导行业走向这个新未来,我们必须擅长构建整个堆栈。

我们想象有一天,路上的十亿辆汽车都将是自动驾驶的。你要么拥有它作为Robotaxi,你正在编排并从某人那里租用,要么你拥有它,它自己驾驶,或者你决定自己驾驶。但是,每一辆车都将具备自动驾驶车辆的能力,每一辆车都将由AI驱动。因此,这个案例中的模型层是Alpamayo,上面的应用是梅赛德斯-奔驰。

好的,这整个堆栈是我们英伟达的第一个全栈尝试。我们一直在这整个时间里致力于此。我很高兴英伟达的第一辆自动驾驶汽车将在第一季度(Q1)上路(在美国),然后在第二季度去欧洲,第一季度在美国,然后第二季度在欧洲,我想第三季度和第四季度是亚洲。强大的是,我们将继续用下一个版本的Alpamayo和之后的版本更新它。

我现在毫无疑问,这将是最大的机器人产业之一,我很高兴我们致力于此。它教会了我们大量关于如何帮助世界其他地方构建机器人系统的知识,那种深刻的理解和知道如何自己构建它,自己构建整个基础设施,知道机器人系统需要什么样的芯片。

在这个特定的案例中,双 Orin 芯片,下一代是双 Thor 芯片。这些处理器专为机器人系统设计,并为最高级别的安全能力而设计。这辆车刚刚获得评级。看,刚刚投产的梅赛德斯-奔驰 CLA 刚刚被 NCAP 评为世界上最安全的汽车。

这是我知道的唯一一个系统,其每一行代码、芯片、系统都经过安全认证。整个模型系统基于我们。传感器是多样化且冗余的,自动驾驶汽车堆栈也是如此。Alpamayo堆栈是端到端训练的,拥有令人难以置信的技能。然而,除非你永远驾驶它,否则没人知道它是否绝对安全。

所以我们用另一个软件堆栈,即底层的整个 AV 堆栈来进行护栏保护。整个 AV 堆栈被构建为完全可追溯的。我们花了大约五年,实际上是六七年的时间来构建第二个堆栈。这两个软件堆栈相互镜像。然后我们有一个策略和安全评估器来决定:这是我有信心并能推理出可以非常安全驾驶的情况吗?如果是,我会让Alpamayo来做。如果这是一个我不太有信心的情况,安全策略评估器决定我们将回到一个更简单、更安全的护栏系统。

然后它会回到经典的 AV 堆栈,这是世界上唯一拥有这两个同时运行的 AV 堆栈的汽车,所有安全系统都应该具有多样性和冗余性。我们的愿景是有朝一日每一辆车、每一辆卡车都将是自动驾驶的。我们一直在朝着那个未来努力。整个堆栈是垂直整合的。

当然,在梅赛德斯-奔驰的案例中,我们共同构建了整个堆栈。我们将部署这辆车,并在我们存续期间一直运营和维护这个堆栈。然而,就像我们要做的所有其他事情一样,我们构建了整个堆栈,但整个堆栈对生态系统是开放的。与我们合作构建 L4 和 Robotaxi 的生态系统正在扩大,遍布各地。我完全预计这将是——这已经是一个巨大的业务了。这对我们来说是一个巨大的业务,因为他们使用它来训练、处理数据和训练他们的模型。他们用它进行合成数据生成。在某些情况下,有些公司几乎只构建车内的计算机芯片。有些公司与我们进行全栈合作,有些公司与我们进行部分合作。没关系你决定用多少,我唯一的请求是尽可能多用一点 NVIDIA。

这就是现在的全部开放内容。这将是第一个大规模的主流 AI、物理 AI 市场。我想我们在这里都完全同意,从非自动驾驶汽车到自动驾驶汽车的这个转折点可能就在这个时间发生。在接下来的 10 年里,我相当确定世界上很大比例的汽车将是自动驾驶或高度自动驾驶的。

但我刚才描述的这种使用三台计算机、使用合成数据生成和模拟的基本技术适用于每一种形式的机器人系统。它可以是一个仅仅是关节、机械手的机器人,也许是一个移动机器人,也许是一个完全的人形机器人。所以机器人系统的下一个旅程、下一个时代将是机器人。这些机器人将有各种不同的尺寸。我邀请了一些朋友。他们来了吗?嘿,伙计们,快点。我有很多东西要讲。来吧,快点。你告诉 R2D2 你会在这儿吗?C-3PO。好的。好的。到这儿来。

(机器人上台)

现在,有一件非常——你们有 Jetson。它们里面有小型的 Jetson 计算机。它们是在 Omniverse 内部训练的。这样如何?让我们向大家展示你们学习如何成为机器人的模拟器,你们想看那个吗?好的,让我们看看那个。Rana,请。

(视频演示:Omniverse 中的机器人训练)

这太神奇了。那就是你学习成为机器人的方式。你是在 Omniverse 内部完成的,机器人模拟器叫 Isaac SimIsaac Lab。任何想制造机器人的人——即使没有人会像你们这么可爱——但现在我们有了所有这些朋友,我们正在制造机器人。

我们有制造大的。不,就像我说的,没人像你们这么可爱。但我们有 Neuro Bot,我们有 Ag Bot。那边的 AG Bot。我们有 LG 在这边。他们刚刚发布了一个新机器人。Caterpillar,他们有史上最大的机器人。那个是把食物送到你家的,连接着 Uber Eats。那是 Serve Robot,我喜欢那些家伙。Agility、Boston Dynamics。不可思议。你有手术机器人,你有来自 Franka 的机械臂机器人,你有 Universal Robotics 的机器人。数量惊人的不同种类的机器人。

所以这是下一章。我们将来会更多地谈论机器人技术。

但最终不仅仅是关于机器人。我知道一切都是关于你们这群家伙的。关键是到达那里。世界上最重要的行业之一将被物理 AI 和 AI 物理学彻底革命化,这个行业也是 NVIDIA 的起源。如果没有我要谈到的这些公司,NVIDIA 就不可能存在。我很高兴所有这些公司,从 Cadence 开始,都在加速一切。Cadence 将 CUDA-X 集成到他们所有的模拟和求解器中。

他们拥有 NVIDIA 物理 AI,他们将用于不同的物理工厂和工厂模拟。你有 AI 物理学被集成到这些系统中。所以无论是 EDA 还是 CAE,以及未来的机器人系统,我们基本上将拥有让你们成为可能的相同技术,现在彻底改变这些设计堆栈。Synopsys,没有 Synopsys,你知道,Synopsys 和 Cadence 在芯片设计世界中是完全不可或缺的。Synopsys 在逻辑设计和 IP 方面处于领先地位。

在 Cadence 的案例中,他们在物理设计、布局布线、仿真和验证方面处于领先地位。Cadence 在仿真和验证方面令人难以置信。他们都在进入系统设计和系统模拟的世界。所以在未来,我们将在 Cadence 和 Synopsys 内部设计你们的芯片。我们将在这些工具内部设计你们的系统,并仿真整个过程,模拟一切。

那就是你们的未来。是的,你们将要在这些平台内部诞生。很神奇,对吧?所以我们很高兴我们正在与这些行业合作,就像我们将 NVIDIA 集成到 Palantir 和 ServiceNow 一样,我们正在将 NVIDIA 集成到计算最密集的模拟行业——Synopsys 和 Cadence 中。

今天我们宣布西门子(Siemens)也在做同样的事情。

我们将集成CUDA-X,物理AI,Agentic AI,NeMo,NeMo Tron,深度集成到西门子的世界中。原因是这样的。首先,我们设计芯片,未来所有芯片都将被英伟达加速。你们会对此很高兴。我们将有代理芯片设计师和系统设计师与我们合作,帮助我们做设计,就像我们今天有代理软件工程师帮助我们的软件工程师编码一样。

所以我们将拥有代理芯片设计师和系统设计师。我们将在这些内部创造你们。但然后我们必须建造你们,我们必须建造工厂,制造你们的工厂。我们必须设计组装你们所有人的生产线。

这些制造工厂本质上将是巨大的机器人。不可思议。那是对的吗?我知道。所以你们将在计算机里设计。你们将在计算机里制造,你们将在计算机里测试和评估,早在你们不得不花任何时间应对重力之前。

你们知道怎么应对重力吗?(机器人跳跃)好的,别显摆了。

所以,这个使 NVIDIA 成为可能的行业。我很高兴现在我们要创造的技术达到了如此复杂的水平和能力,我们可以回去帮助他们为行业提供解决方案。所以,始于他们的东西,我们现在有机会回去帮助他们彻底改变他们的行业。

让我们看看我们将与西门子做些什么。来吧。

视频解说:
物理 AI 的突破让 AI 从屏幕走向我们的物理世界。这恰逢其时,因为世界正在建设各种各样的工厂,用于芯片、计算机、救命药物和 AI。随着全球劳动力短缺的加剧,我们比以往任何时候都更需要由物理 AI 和机器人技术驱动的自动化。

这就是 AI 与世界上最大的物理产业相遇的地方,是 NVIDIA 和 西门子合作的基础。近两个世纪以来,西门子建立了世界的工业,现在它正在为 AI 时代重塑工业。西门子正在整合 NVIDIA CUDA-X 库、AI 模型和 Omniverse 到其 EDA、CAE 和数字孪生工具及平台的产品组合中。我们将物理 AI 带入从设计和模拟到生产和运营的整个工业生命周期。我们正站在新工业革命的开端——物理 AI 时代。由 NVIDIA 和西门子为下一个工业时代打造。

(Vera Rubin平台发布部分)

黄仁勋:
不可思议,对吧,伙计们?你们觉得怎么样?好的,抓紧了。如果你看世界的模型,毫无疑问 OpenAI 是今天领先的 Token 生成者。OpenAI 生成的 Token 比其他任何都多。第二大群体,第二大可能是开放模型。我的猜测是,随着时间的推移,因为有这么多公司、这么多研究人员、这么多不同类型的领域和模态,开源模型将是迄今为止最大的。

让我们谈谈一个非常特别的人。你们想那样做吗?

让我们谈谈 Vera Rubin(薇拉·鲁宾)。她是美国天文学家。她是第一个观察到并注意到星系尾部的移动速度与星系中心差不多快的人。我知道这说不通。牛顿物理学会说,就像太阳系一样,离太阳越远的行星绕太阳公转的速度比离太阳近的行星慢。因此,除非有看不见的物体,否则这是说不通的。她发现了即使我们看不见但也占据空间的暗物质

所以 Vera Rubin 是我们以她名字命名下一台计算机的人。这是个好主意,对吧?我知道。

Vera Rubin 的设计是为了解决我们面临的这一根本挑战。AI 所需的计算量正在飙升。对 NVIDIA GPU 的需求正在飙升。这种飙升是因为模型每年增加 10 倍,即一个数量级。更不用说,正如我提到的,o1 的引入是 AI 的一个转折点。推理不再是一次性的回答,而是一个思考过程。为了教 AI 如何思考,强化学习和非常显著的计算被引入到后训练中。这不再只是监督微调(SFT)或模仿学习。现在有了强化学习,本质上是计算机自己尝试不同的迭代,学习如何执行任务。因此,预训练、后训练、测试时扩展的计算量已经爆炸式增长。

现在我们做的每一次推理,不再只是一次性的,Token 的数量——你可以看到 AI 在思考,我们对此表示赞赏。它思考得越久,通常产生的答案就越好。所以测试时扩展导致生成的 Token 数量每年增加 5 倍。与此同时,AI 的竞赛正在进行。每个人都试图达到下一个水平。每个人都试图达到下一个前沿。每当他们达到下一个前沿时,上一代 AI Token 的成本就开始每年下降约 10 倍。每年 10 倍的下降实际上告诉你一些不同的事情,它是说竞争如此激烈,每个人都试图达到下一个水平,有人正在达到下一个水平。因此,所有这些都是计算问题。你计算得越快,你就能越快达到下一个前沿水平。所有这些事情都在同一时间发生。

所以我们决定每年都必须推进计算的最先进水平,一年也不能落下。我们一年半前就开始出货 GB200。现在,我们正在全面制造 GB300。如果 Vera Rubin 要赶上今年,它现在必须已经投入生产。所以今天,我可以告诉你们 Vera Rubin 正在全面生产。

你们想看看 Vera Rubin 吗?好的,来吧。请播放。

视频解说:

Vera Rubin恰好赶上AI的下一个前沿。这是我们如何构建它的故事。架构,一个六芯片系统工程化为一个整体。诞生于极端协同设计(Extreme Co-design)。它始于Vera,一个定制设计的CPU,性能是上一代的两倍。以及Rubin GPU。Vera和Rubin从一开始就协同设计,以更快、更低延迟地双向和一致地共享数据。

AI需要快速的数据。ConnectX-9为每个GPU提供1.6 TB/s的扩展带宽,BlueField-4 DPU卸载存储和安全。所以计算完全专注于AI。Vera Rubin计算托盘完全重新设计,没有电缆、软管或风扇,配备一个BlueField-4 DPU、8个ConnectX-9网卡、两个Vera CPU和四个Rubin GPU,这是Vera Rubin AI超级计算机的计算构建块。接下来,第六代NVLink Switch,移动的数据比全球互联网还多,连接18个计算节点,扩展到72个Rubin GPU作为一个整体运行。然后是Spectrum-6 Ethernet Photonics,世界上第一个具有512通道和200Gbps“共封装光学(Co-packaged optics)”的以太网交换机。

将数千个机架扩展成 AI 工厂。自设计开始以来的 15,000 个工程师年。第一个 Vera Rubin NVL72 机架上线。六个突破性的芯片,18 个计算托盘,9 个 NVLink 交换机托盘,220 万亿个晶体管,重近 2 吨。向 AI 下一个前沿的巨大飞跃。Rubin 来了。

黄仁勋:

你们觉得怎么样?这是一个Rubin Pod。1152个GPU和16个机架。正如你知道的,每个机架有72个Vera Rubin或72个Rubin。每一个Rubin实际上是两个GPU晶粒连接在一起。

“这是一只巨大的怪兽(It's a giant ship)。”

我们设计了六种不同的芯片。首先,我们在公司内部有一个规则。作为一个好规则,新一代不应该有超过一两个芯片的变化。但问题是,正如你所见,我们在描述每个被描述的芯片中的晶体管总数。我们知道摩尔定律已经大大放缓。因此,我们每年能得到的晶体管数量不可能跟上大10倍的模型。它不可能跟上每年多5倍的Token生成。它不可能跟上这样一个事实:Token的成本下降将如此激进,如果行业要继续进步,除非我们部署积极的极端协同设计,基本上同时在整个系统的所有芯片上进行创新,否则不可能跟上这种速度。这就是为什么我们决定这一代,我们别无选择,只能重新设计每一个芯片。

刚才描述的每一个芯片本身都可以开一场新闻发布会,这在过去可能需要一整家公司专门来做。每一个都是完全革命性的,是同类中最好的。

Vera CPU,我为此感到骄傲。在一个受功耗限制的世界里,Vera CPU的性能是世界上最先进CPU的两倍。它有88个CPU核心,但使用了“空间多线程”(Spatial Multi-threading)技术,使得176个线程中的每一个都能获得全性能。

这是Rubin GPU。它的浮点性能是Blackwell的5倍。但重要的是,看底线,它只有Blackwell晶体管数量的1.6倍

我要告诉你们关于当今半导体物理水平的一些事情。如果不做协同设计,如果不做基本上整个系统每个芯片层面的极端协同设计,我们怎么可能提供这种性能水平?因为你只有 1.6 倍的晶体管。即使每晶体管的性能提高一点,比如 25%,也不可能从这些晶体管中获得 100% 的良率。所以 1.6 倍在某种程度上设定了每年性能提升的上限,除非你做一些极端的事情,我们称之为极端协同设计。

我们做的一件事,也是一项伟大的发明,叫做 NVFP4 Tensor Core。我们芯片内部的 Transformer 引擎不仅仅是我们放入数据路径的某种 4 位浮点数。它是一个完整的处理器,一个处理单元,知道如何动态地、自适应地调整其精度和结构以处理 Transformer 的不同层级。这样你就可以在可能损失精度的地方实现更高的吞吐量,并在需要的地方回到尽可能高的精度。那种动态自适应的能力,你不能在软件中做,因为显然运行得太快了。所以你必须在处理器内部自适应地完成。

这就是 NVFP4。当有人说 FP4 或 FP8 时,这对我们来说几乎没有任何意义。原因是这关乎 Tensor Core 结构和使其工作的所有算法。NVFP4,我们已经发表了相关论文。其能够保留的吞吐量和精度水平完全令人难以置信。这是开创性的工作。如果行业希望我们将这种格式和结构在未来变成行业标准,我也不会感到惊讶。这是完全革命性的。这就是我们能够提供如此巨大性能提升的原因,即使我们只有 1.6 倍的晶体管。

我们彻底改变了整个NGX机箱。从两个小时的组装时间变成了五分钟。100%液冷。真正的突破。好的,所以这是新的计算底盘,将所有这些连接到架顶交换机,东西向流量的,叫做Spectrum-X NIC

好的,这是新的计算底盘。连接所有这些到机架顶部交换机(东西向流量)的是 Spectrum-X 网卡。这是世界上最好的网卡,毫无疑问。NVIDIA 的 Mellanox,很久以前加入我们的 Mellanox,他们用于高性能计算的网络技术是世界上最好的,无可比拟。算法、芯片设计、所有的互连、运行在上面的所有软件堆栈。他们的 RDMA 绝对是世界上最好的。现在它具有进行可编程 RDMA 和数据路径加速器的能力。这样我们的合作伙伴(如 AI 实验室)可以为他们想要如何在系统中移动数据创建自己的算法,但这完全是世界级的。

ConnectX-9 和 Vera CPU 是协同设计的。直到 CX9 出现我们才发布它,因为我们是为一种新型处理器协同设计它的。你知道,ConnectX-9、我们的 CX8 和 Spectrum-X 彻底改变了以太网用于人工智能的方式。

AI 的以太网流量要密集得多,需要更低的延迟。瞬时的流量激增不同于以太网见过的任何东西。所以我们创造了 Spectrum-X,即 AI 以太网。两年前,我们发布了 Spectrum-X。NVIDIA 今天是世界上最大的网络公司。

它如此成功,被用于如此多不同的安装中。它正在横扫 AI 领域。性能令人难以置信,特别是当你拥有一个 200 兆瓦的数据中心或吉瓦级的数据中心时,这些都是数十亿美元的投资。假设一个吉瓦数据中心价值 500 亿美元,如果网络性能让你多获得 10% 的输出,而在 Spectrum-X 的情况下,提供 25% 更高的吞吐量并不罕见。哪怕我们只提供 10%,那也价值 50 亿美元。那网络就完全是免费的了,这也是为什么大家都在用 Spectrum-X。这真的是个不可思议的东西。

现在我们要发明一种新型的数据处理方式。所以 Spectrum-X 是用于东西向流量的。我们现在有一个名为 BlueField-4 的新处理器,允许我们采用一个非常大的数据中心,隔离其不同部分,以便不同用户可以使用不同部分,确一切都可以虚拟化,如果他们决定虚拟化的话。所以你卸载了大量的虚拟化软件、安全软件、南北向流量的网络软件。

BlueField-4 是每个计算节点的标配。BlueField-4 还有我马上要讲的第二个应用。这是一个革命性的处理器,我对此非常兴奋。

这是 NVLink 6 Switch,就在这里。这个交换机里面的每个交换芯片拥有历史上最快的 SerDes。世界仅仅刚达到 200 Gbps。这是一个 400 Gbps 的交换机。这之所以如此重要,是为了让我们可以让每一个 GPU 在完全相同的时间与每一个其他 GPU 对话。

这个位于这些机架背板上的交换机使我们能够移动相当于全球互联网数据量两倍的数据,以两倍于所有世界互联网数据的速度。将整个星球互联网的横截面带宽算作大约每秒 100 TB。这是每秒 240 TB。所以这让大家有个概念。这是为了让每一个 GPU 可以在完全相同的时间与每一个其他 GPU 一起工作。

好的,在那之上——这是单机架。这是一个机架。如你们所见,这一个机架的晶体管数量是 1.7 倍。是的,你能帮我做这个吗?这通常大约是 2 吨,但今天有 2.5 吨。因为当他们运输时,忘了把里面的水排干。所以我们从加州运了很多水过来。

你能听到它尖叫吗?当你旋转 2.5 吨时,它肯定会有点尖叫。你能做到的。好的。我们不会让你做两次。

好的,在这后面是 NVLink Spine,基本上是两英里长的铜缆。铜是我们知道的最好的导体。这些都是屏蔽铜缆,结构化铜缆,是计算系统中有史以来使用最多的。我们的 SerDes 驱动铜缆从机架顶部一直到底部,速度为 400 Gbps。不可思议。

这总共有两英里的铜缆,5,000 根铜缆。这使得 NVLink Spine 成为可能。这是真正开启了 NGX 系统的革命,我们决定创建一个行业标准系统,以便整个生态系统、我们所有的供应链都可以标准化这些组件。有大约 80,000 个不同的组件组成了这些 NGX 系统。

如果每年都改变它,那是完全的浪费。每一个主要的计算机公司,从富士康到广达,到纬创,名单还在继续,到 HP、Dell 和 Lenovo。每个人都知道如何构建这些系统。所以尽管性能高得多,而且非常重要的是,功率是原来的两倍,我们还是能把 Vera Rubin 塞进去。Vera Rubin 的功率是 Grace Blackwell 的两倍。

然而,这是奇迹所在——进入其中的空气、气流大致相同。非常重要的是,进入其中的水是相同的温度,45 摄氏度。有了 45 摄氏度的水,数据中心就不需要冷水机组了。我们基本上是在用热水冷却这台超级计算机,效率极高。

所以这是新机架,晶体管数量增加 1.7 倍,但峰值推理性能增加 5 倍,峰值训练性能增加 3.5 倍。好的,它们在顶部使用 Spectrum-X 连接。哦,谢谢。

这是世界上第一个使用台积电新工艺制造的芯片,这是我们共同创新的工艺,叫做 CoWoS,是一种**硅光子(Silicon Photonics)**集成工艺技术。这允许我们将硅光子直接连接到芯片上。这是 512 个端口,速度为 200 Gbps。这是新的以太网 AI 交换机,Spectrum-X 以太网交换机。

看这个巨大的芯片。但真正令人惊奇的是它直接连接了硅光子,激光进入。激光从这里进入。光学器件在这里,它们连接到数据中心的其余部分。这我稍后会展示,但这就在机架顶部。这是新的 Spectrum-X 硅光子交换机。

好的,我有新东西要告诉你们。正如我几年前提到的,我们引入了 Spectrum-X 以便我们可以重塑网络的方式。以太网非常易于管理,每个人都有以太网堆栈,世界上每个数据中心都知道如何处理以太网。当时我们唯一使用的是 InfiniBand,用于超级计算机。InfiniBand 延迟非常低,但当然其软件堆栈、整个可管理性对于使用以太网的人来说非常陌生。所以我们决定首次进入以太网交换机市场。Spectrum-X 就这样起飞了,使我们成为世界上最大的网络公司。

正如我提到的,下一代 Spectrum 将延续这一传统。正如我之前所说,AI 已经重塑了整个计算堆栈,计算堆栈的每一层。理所当然地,当 AI 开始在全球企业中部署时,它也将重塑我们进行存储的方式。AI 不使用 SQL。AI 使用语义信息。

当使用 AI 时,它会创建这种临时知识、临时内存,称为 KV Cache(KV 缓存),即 Key-Value 组合。这是一个 KV 缓存,基本上是 AI 的缓存,AI 的工作记忆。AI 的工作记忆存储在 HBM 内存中。

对于每一个 Token,GPU 读取模型,整个模型,它读取整个工作记忆并产生一个 Token,并将这一个 Token 存回 KV 缓存中。然后下一次它这样做时,它读取整个内存,读取它,并通过我们的 GPU 流式传输,然后生成另一个 Token。好吧,它重复这样做,一个 Token 接着一个 Token。

显然,如果你与那个 AI 进行长时间的对话,随着时间的推移,那个记忆、那个上下文记忆将会极大地增长,更不用说模型在增长,我们使用的 AI 对话轮次在增加。我们希望这个 AI 能伴随我们一生,并记住我们与它的每一次对话,对吧?我要求它做的每一个研究链接。当然,共享超级计算机的人数将继续增长。因此,这种最初适合放入 HBM 的上下文记忆已经不够大了。

去年,我们创造了 Grace Blackwell 的非常快的内存,我们称之为快速上下文内存。这就是我们将 Grace 直接连接到 Hopper 的原因。这就是我们将 Grace 直接连接到 Blackwell 的原因,以便我们可以扩展上下文内存。但即使那样也不够。所以下一个解决方案当然是去网络上,南北向网络去公司的存储。但如果你同时运行很多 AI,那个网络将不再足够快。所以答案显然是做不同的事情。

所以我们引入了 BlueField-4,以便我们可以在机架中拥有非常快的 KV 缓存上下文内存存储。我马上就展示给你们看,这是一种全新的存储系统类别。业界非常兴奋,因为对于几乎所有今天进行大量 Token 生成的人来说,这是一个痛点。AI 实验室、云服务提供商,他们真的深受 KV 缓存移动引起的大量网络流量之苦。

所以创建一个新平台、一个新处理器来运行整个 Dynamo KV 缓存上下文内存管理系统,并将其放在离机架其余部分非常近的地方,这个想法是完全革命性的。

就是它。就在这里。这就是所有计算节点。每一个都是 NVLink 72。所以这是 Vera Rubin,NVLink 72,144 个 Rubin GPU。这是存储在这里的上下文内存。每一个后面都有四个 BlueField。每个 BlueField 后面有 150 TB 的内存,上下文内存。对于每个 GPU,一旦你分配下去,每个 GPU 将获得额外的 16 TB。现在在这个节点内部,每个 GPU 本质上有 1 TB。现在有了这个直接位于同一东西向流量上的后备存储,以完全相同的数据速率,200 Gbps 跨越这台计算节点的整个架构。你将获得额外的 16 TB 内存。好的?这是管理平面。这些是连接所有它们的 Spectrum-X 交换机。在这边,末端的这些交换机将它们连接到数据中心的其余部分。好的,这就是 Vera Rubin。

有几件事真的令人难以置信。首先我提到的是,这整个系统的能源效率是原来的两倍,本质上是温度性能的两倍,也就是说,即使功率是两倍,使用的能量是两倍,计算量也比那高出许多倍。但进入其中的液体仍然是 45 摄氏度。这使我们能够节省大约 6% 的全球数据中心电力。这是一件非常大的事情。

第二件非常大的事情是,整个系统现在是“机密计算安全(Confidential Computing Safe)”的,意味着一切在传输中、静态时和计算期间都是编码的。并且每一条总线现在都是加密的。每个 PCIe Express、每个 NVLink,CPU 内存和 GPU 之间的 8 个 NVLink,GPU 到 GPU 之间,一切现在都是加密的。所以它是机密计算安全的。这允许公司感到安全,他们的模型由别人部署,但永远不会被别人看到。

好的?所以这个特定的系统不仅极其节能,还有一件事令人难以置信。由于 AI 工作负载的性质,它会随着称为 All-Reduce 的计算层瞬间飙升,电流、同时使用的能量真的是爆表的。通常它们会飙升 25%。我们现在在整个系统中拥有**功率平滑(Power Smoothing)**功能,这样你就不必过度配置。或者如果你过度配置了,你不必浪费那 25% 的能量或闲置不用。所以现在你可以填满整个功率预算,而不必过度配置。

最后一件事当然是性能。让我们看看这个的性能。这些图表只有构建 AI 超级计算机的人才会喜欢。我们花了很大力气重新设计每一个芯片、每一个系统并重写整个堆栈才使这成为可能。基本上这是训练 AI 模型。

第一列,你训练 AI 模型越快,你就能越快将下一个前沿推向世界。这是你的上市时间。这是技术领导力。这是你的定价权。如果是绿色,这是 Blackwell。在 Rubin 的情况下,吞吐量高得多。因此,只需要四分之一的这些系统就能在我们给定的时间内(一个月)训练模型。这就是 10 万亿参数模型在 100 万亿 Token 上训练。好的,这是我们对构建下一个前沿模型所需内容的模拟预测。Elon 已经提到下一版本的 Grok 可能是 7 万亿参数。所以这是 10 万亿。在绿色的是 Blackwell。在这里的 Rubin,注意吞吐量高得多。

第二部分是你的工厂吞吐量(Factory Throughput)。Blackwell 又是绿色的,工厂吞吐量很重要,因为你的工厂,在吉瓦的情况下是 500 亿美元。一个 500 亿美元的数据中心只能消耗 1 吉瓦的电力。所以如果你的性能、你的每瓦吞吐量很好与很差相比,这直接转化为你的数据中心收入直接与第二列相关。在 Blackwell 的情况下,它是 Hopper 的 10 倍左右。在 Rubin 的情况下,它将再次高出约 10 倍。

而在Token成本方面,Rubin大约是Blackwell的十分之一

这就是我们如何让每个人到达下一个前沿,将AI推向下一个水平,当然,还有能源高效和成本高效地构建这些数据中心。

这就是现在的 NVIDIA。你们知道我们制造芯片,但如你们所知,NVIDIA 现在制造整个系统,AI 是全栈的。我们正在重塑 AI 的一切,从芯片到基础设施,到模型,到应用。我们的工作是创建整个堆栈,以便你们所有人都能为世界其他地方创建令人难以置信的应用程序。

谢谢大家的到来。祝大家CES愉快。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章