华为发布全新芯片之后,国产AI芯片面对的三个关键问题

腾讯科技
一是产能约束基本缓解,下一步需构建开放生态,与海光等企业形成"华为-海光-其他"格局;二是急需具备技术背景和市场应用能力的专业产品经理人才,华为950系列的"P/D分离"设计体现了精细化产品定义趋势;三是AI产业繁荣是AI芯片创新的前提,需要产业与芯片相互促进发展。

中国的算力芯片领域,正在悄然发生变化。

在2025年华为全连接大会上,华为发布了多款重磅芯片新品,包括昇腾950系列、960以及970等AI芯片,并公布了未来三年的昇腾AI芯片产品路线图。

其中,950系列采用了两个不同的后缀——PR(Prefill & Recommendation,预填充与推荐)、DT(Decoder & Training,推理解码与训练)。

传统AI芯片在处理大模型推理时面临资源争抢问题,而在互联网平台企业中,其推荐算法推理模型所需的内存容量也巨大。如何在算力、内存容量和内存带宽之间取得平衡,是提升投入产出比的关键。

华为的“P/D分离”设计就是尝试通过为不同应用场景配置不同的算力、内存容量和带宽来实现这一目标。

这种设计正是针对中国AI市场面临的现实挑战:能够运行DeepSeek满血版几乎成为国内衡量AI计算系统的试金石。然而,要承载671B的参数,仅仅是采用不同版本Memory这一项的成本差异就可达数万美金。

可以说,中国AI产业的市场化需求,倒逼了国产芯片的产品创新。

从产品角度看,发布会上的这一最大看点,也是一个强烈的行业信号:

1)以DeepSeek为代表的应用与基础模型产业方,在持续不断且深度推动着中国AI芯片的发展;更进一步,受益于中国庞大的数据中心基础设施规模与未来需求,“华为-海光-其他”的生态格局基本形成;

2)时代亟需一个具备技术背景、但又对市场应用娴熟于心、同时又具有平衡取舍之道的产品经理人才梯队;

3)AI产业的繁荣与领先,是AI芯片突破与创新的前提。

01 产能已经不是问题,下一步是生态

从近期华为主动发出的信号,以及作者作为多年从业者获得的行业信息,华为的产能约束基本上得到了缓解。

数据中心的三大基石是计算、通信(网络互连)和存储,这是分析算力系统必须牢记的前提。在AI算力系统中,影响计算性能的,也可以划分为三个部分,设计算力值、计算(算力)核之间高速互联以及存储带宽。

在《软银投资20亿,英特尔成为全球高端制造业最大变数》中,笔者曾经提到算力的大小和工艺制程强相关,而这种高端工艺制程的主要体现就是Fab的高端产能与先进封装。

为华为提供类CoWoS封装的企业,今年已经出现产能盈余并向外释放,说明在7nm节点附近,华为的需求已基本得到满足。

再来看高速互联。

WAIC期间,超节点是AI基建的重头戏。其中,华为的CloudMatrix384成为了亮点,它的显著特征是其点对点、全互联、超高带宽的网络,通过 UB 协议连接所有的 NPU 和 CPU。

CloudMatrix384通过Ultra-High-Performance Networking实现了 CPU、NPU、内存、网卡(NICs)以及其他资源的完全点对点解耦与池化,其点对点硬件架构,包含用于超节点内扩展的超高带宽统一总线(UB)、用于超节点间通信的 RDMA ,以及用于与数据中心网络集成的虚拟专有云(VPC)。这再次证明,通信技术本就是华为的核心优势。

再来看内存带宽。

华为本来在通信领域有深厚积累,可以说高速互联技术是华为的“老本行”。

这次的发布会上,华为发布了950、960、970系列产品,其中最为引人注目的950系列推出了两个版本,从应用上看这标志着PD分离在硬件层面的解偶,但从结果来看,内存带宽也跟了上来。

计算、高速互联与存储带宽这些硬件上都有了大的突破,产能问题得到解决的华为,需要攻克的下一个堡垒就是产品的生态了。

2022年,当业内开始注意到CUDA生态之于英伟达的意义时,构建生态似乎成了老生常谈。

生态的本质是生意。

intel建构了X86生态,英伟达建构了CUDA生态,哪怕苹果、小米、腾讯都有各自的生态。其共同点,正是依附于这一生态中的每一家企业、机构、开发者,都可以在其中找到自己的生态位、并在其中商业变现、进而获利。

总不能指望,当一家企业举起了生态大旗,就有许多企业不求回报地进行资源的投入。无利不起早,才是商业世界的常态。

具有生意(潜力)是生态建立的基础。

那么,传统的华为可能就面临着(也在进行着)模式的转变,从封闭到开放,从肥水不流外人田到利益共享。Intel和英伟达作为带头大哥走过的路,华为也要走一遍。

这条路上华为并不孤独,因为还有,海光。

地缘政治的风险里,孕育了自主可控的机遇。作为技术国产化成功的典范,海光凭借X86架构的优势,其CPU在信创领域和国产化市场中所向披靡。随着资本的积累日渐丰盈,其技术实力与产品涉足领域也与日俱增。除了CPU之外,AI算力芯片、RAID Controller、高速网络芯片也日渐成熟,在数据中心的重要芯片上,海光在一步步地攻城略地。

2025年5月下旬,海光宣布将会合并曙光。而在更早,这两家兄弟公司已经在生态层面开始协同,重新对旗下各家企业进行定位,通过让渡市场的措施,实现同国内服务器厂商和其他产业链上企业的合作,构建系统层面的生态。

可以说,“华为-海光-其他”的格局基本形成。

基于这个观察,可以进一步推演:

  • 华为会在不久的将来做出选择,到底是IDM还是Fabless模式。当然,不论做何选择,他应该还是会继续保持对产能的强力控制;

  • 合并后的海光下一步,就是入股高端产能,在当下的中国,也就意味着Fab大概率是SMIC或者华虹。从商业实操方面看,华虹可能性更大。至于OSAT,通富微电本来就和海光有着千丝万缕的关系。

02 中国芯片产业的产品经理时代到来了

上文提到,本次发布的950系列之所以受到关注,核心就在于其PR和DT两个不同型号,这正是业界探索已久的“P/D分离”。

这又是一个类似于DeepSeek发布时的解码游戏。

为了解释清楚这个概念,需要看一下大模型的演进路程和中国AI算力面临的实际挑战。

大模型的参数量是从Billion(十亿)级别起跳,百亿千亿是常态,直至万亿级规模。这些参数需要容量非常大的空间进行存储,且由于计算时需要极高速访问这些存储器,就需要极高的带宽。这就催生出了HBM这种既有大容量又有高带宽的新型存储器。

在进行计算时,算力的大小也决定着计算的效率,因此一颗AI芯片的目标设计算力也会做得尽量大。

然而,很少有产品经理在设计中深入思考算力与存储带宽的最佳配比关系。毕竟,除了英伟达和Broadcom为大平台订制的AI芯片之外,能用起来已经是了不起的存在了。

但是,一个现实问题是,HBM的成本实在是太贵了,单GB容量的HBM是DDR的近乎10倍、甚至更高。对于中国的AI芯片公司来说,不仅成本压力大,而且想要获得足够的产能、甚至是稳定的供应都是一个挑战。

一个优秀的产品经理、架构师,之所以称为合格、优秀,就是要会优化、取舍,Trade-Off。做好优化与取舍的前提,是要对应用场景有深刻的理解与洞察。

在AI的应用场景中,对资源需求最高的的,除了模型的训练过程,一个是大家耳熟能详的大语言模型,一个是每一家互联网公司的主要利润来源——推荐算法。

在大模型推理中,常用以下两项指标评估性能:

  • TTFT(Time-To-First-Token):首 token 的生成时间,也就是从用户输入完毕到大模型回复的第一个字(母)所花费的时间,主要衡量 Prefill 阶段性能,这是一种计算密集型任务,对并行能力要求高,但是对内存带宽相对可以低一点;

  • TPOT(Time-Per-Output-Token):生成每个 token 的时间,也就是用户直接感受到的回复速度,主要衡量 Decode 阶段性能,这一阶段对内存容量和内存带宽的要求更高。

当 Prefill 和 Decode 在同一块AI芯片上运行时,由于两阶段的计算特性差异,会导致 TTFT 和 TPOT 之间的资源争抢。若优先处理 Prefill 阶段以降低TTFT,Decode 阶段的性能(TPOT)可能下降。若选择提升 TPOT,则会增加 Prefill 请求的等待时间,导致 TTFT 上升。

这次华为的两个型号,采用不同的内存容量和内存带宽,应该是采取了PD分离思路,正是为了打破这一矛盾。

可以运行DeepSeek满血版,几乎成为国内衡量一个AI计算系统的试金石。

然而,要放得下671B的参数,仅仅是采取不同版本HBM这一项的成本差异就可达数万美金。而在互联网平台企业中,其推荐算法推理模型所需的内存容量也颇为巨大。如果可以在算力、内存容量和内存带宽间取得优化、取舍与平衡,投入产出比(ROI)就会提高。

时代呼唤专业的AI芯片产品经理。

事实上,在国内的芯片企业中,真正具备产品经理经理能力的人才非常稀缺。在曾经芯片主要还是由外企垄断的时代,一家芯片企业的Product  Marketing 或 Product Line Manager是产品线的核心管理岗位,一般是由在总部的极少数人担任,随着中国市场的需求和美国出现了一定程度的不同,才有中国大陆人逐步跻身这一岗位。

而在中文语境下,“市场经理”常被理解为负责市场传播(Marcom)或市场推广(Business Development)的角色。在今天的国内AI芯片企业中,目前仍然是研发岗在定义产品。

从DeepSeek的满血版提出的要求,到FP8数据精度的国产化需求,直至这次P/D分离,隐隐中可以看到模型应用提出需求进而驱动产品定义这一趋势在中国已然发生。那么理所应当地,一个具备技术背景、但又对市场应用娴熟于心、同时又具有平衡取舍之道的产品经理,将成为下一阶段定义和推动算力芯片和系统发展的主导力量。

这个趋势,是AI芯片与AI系统专业化、精细化的开端,是产品运营上了新台阶的标志。

这个趋势,是“需求决定供给”这一经济学规律在AI的中国市场中的再次体现。

03 AI产业是战略高地,AI芯片与AI产业可互相促进

正因为此,我们必须旗帜鲜明地说:不能为了发展AI芯片,而拖累放缓了AI产业的发展。

AI产业的繁荣与领先,是AI芯片突破与创新的前提。

AGI和可控核聚变是人类文明当前面对的两座生产力高峰。在当前的地缘格局下,大国的竞争围绕这两座高峰而展开。而企业之间的竞争,都在力图确保自己一直能留在牌桌上,不被时代甩在后面。

正如在战争一样,不能仅凭着热血和口号,但使用落后的武器装备去攻占战略高地,我们应该利用一切可以获得的优势资源去确保战争的胜利。

在通讯行业、在电力行业、在大基建行业,正是由于我们市场规模大、终端产业繁荣,一步步倒逼上游的技术突破与产品创新,最终在全行业上下游实现各环节的突破。

在AI产业的竞争中,首先要确保在竞争中留在牌桌上、甚至成为其中最为领先的佼佼者。正如这一次次的案例说明、也正如经济学规律所揭示的一样,只要AI产业我们处于世界领先水平,其所引领的趋势、提供的丰富场景和明确需求、以及最重要的资本与人才、行业know-how积累,最终都会推动我们的AI芯片、算力系统取得突破,这只是个时间问题。

不过,网络上有句流传很广的话:成年人不做选择,我都要。

作为一个超大规模经济体的中国,在行业丰富度、产业协同度和资本积累程度上,当前基本具备“都要”的实力。也就是说,在市场化经营的情况下,既有着使用世界顶级算力设施去冲顶的基础与必要性,也有着扶持AI国产算力所需要的资源与意愿。

努力奋斗的目的,正是为了可以争取更多的选择空间,于个人、于国家,皆如是。

经过各领域国人同胞们多年不懈的奋斗与多方面积累,我们身处产业变革与飞速发展的时代,这是理性者的福音,是魄力者的机遇,更是每一个普通奋斗者可能的逆袭之路。

本文作者:姚金鑫、晓静,来源:腾讯科技,原文标题:《华为发布全新芯片之后,国产AI芯片面对的三个关键问题》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章