因为设计缺陷,英伟达新的Blackwell系列芯片中最先进的AI芯片可能面临延迟发布。
据科技媒体The Information援引微软一名员工和一名直接知情人士透露,本周英伟达告知其最大客户之一微软和另一家大型云提供商,其新款 Blackwell 系列芯片中最先进的 AI 芯片将延迟发布三个月或更长时间,Blackwell大量出货或延迟至明年Q1。这可能会影响 Meta Platforms、谷歌和 Microsoft 等客户,这些公司集体订购了价值数百亿美元的芯片。
摩根士丹利则在最新报告中表示,Blackwell芯片的生产可能会暂停约两周,但可以在2024年第四季度通过台积电的努力赶上。
目前英伟达方面不愿就有关延迟的声明发表评论,但表示客户正在测试Blackwell芯片的样品,并且今年晚些时候“产量有望提高”。
在大规模生产之前发现重大设计缺陷并不常见
The Information援引参与Blackwell芯片制作人士称,最近几周出现了Blackwell设计问题,因为台积电的工程师在准备大规模生产时发现了缺陷。
GB200 芯片包含两个连接的 Blackwell GPU 和一个 Grace 中央处理单元。该缺陷问题涉及一个处理器芯片(一块用于容纳芯片电路的硅片),该芯片连接了两个Blackwell GPU。这一障碍降低了台积电能够为英伟达生产的芯片产量,甚至有可能使公司停止生产。
对于台积电来说,在大规模生产前临时停止生产线并面临产品重新设计问题是不常见的。据两名员工透露,台积电已经腾出机器产能来准备大规模生产GB200,但在解决问题之前,机器将不得不闲置。
分析认为,在大规模生产之前发现重大设计缺陷是非常不寻常的。因为前期需要进行多次生产测试运行和模拟,以确保产品的可行性和顺利的制造过程。
按照原计划,台积电将在第三季度开始大规模生产Blackwell芯片,并从第四季度开始交付给英伟达。黄仁勋曾在5月份表示,公司计划在今年晚些时候出货大量Blackwell。
而这次的设计缺陷问题,或将使Blackwell主要芯片(B200和GB200)延迟3个月或更长时间,Blackwell大量生产延迟至明年Q1。因为在收到芯片后,云提供商通常需要大约三个月的时间才能将/其大规模集群投入运行。
大摩:只是改进并非延迟,四季度能赶上进度
摩根士丹利分析师Charlie Chan则在报告中表示,此次是对于Blackwell的一些改进工作,并非延迟:
据我们了解,原始Blackwell设计的生产已于2024年第二季度末开始生产,任何与原始设计有关的技术问题仍可以通过软件系统解决。NVIDIA希望通过更换一些光罩,即“重新设计”,进一步提高Blackwell的稳定性。
Blackwell的重新设计已经在台积电完成,并将在2024年第四季度成为更大批量生产的版本。
巨头们只关心 什么时候才能收货?
Blackwell可谓是科技公司们心目中的“白月光”,承载着巨头们的厚望。
如果即将推出的B100、B200 和 GB200等 AI 芯片推迟三个月或更长时间,英伟达的客户们真的会“愁上心头”。
这些客户包括Microsoft、Meta和OpenAI等,他们对英伟达AI芯片抱以极大期待,计划使用英伟达开发的“超级计算机”生产出未来几代大型语言模型、Meta AI助手和其他自动化功能等。
the Information援引知情人士称,Meta定下价值至少100亿美元的订单,而Microsoft最近几周将其订单规模增加了20%。Microsoft 计划在 2025 年第一季度之前为 OpenAI 准备好 55000-65000 个 GB200 芯片。
NVLink 服务器机架或受影响
设计缺陷还将影响 Nvidia NVLink 服务器机架的生产和交付,因为从事服务器工作的公司必须等待新的芯片样品,然后才能最终确定服务器机架设计。
此前,天风国际分析师郭明錤就指出,GB200 NVL36的算力优势无庸置疑,但也面临许多前所未见的设计与生产挑战,能否确保如期大量出货,答案存疑。
GB200 NVL36的每个机柜耗电约80kW,而根据AMAX今年四月的调查,目前全球少于5%的数据中心可以支持每机柜50kW服务器。所以,购买GB200 NVL36前,需先确保有没有足够空间安装。
GB200 NVL72的单一机柜版本,每机柜耗电130kW,短期内无法量产。