英伟达已经做的很好了? 吗?

zartbot
英伟达最新财报虽业绩亮眼,却引发市场深度质疑:财务操作被指存在“循环融资”嫌疑,新一代Blackwell架构产品被指性价比不足且生命周期可能短暂,加之机构大幅减持及空头做空,均暴露其从硬件厂商向云服务转型过程中,对云计算流动性管理等核心挑战的应对不足。尽管技术生态仍具优势,但市场正用疑虑投票。

TL;DR

Nvidia的财报出来, 似乎有几种截然不同的声音, 最后在市场分歧的定价中以下跌3%收盘, 而最近几周那几家NeoCloud基本上跌幅都在20~30%以上, CRWV几乎最近一个月腰斩. 一些常见的分析如下:

《左手倒右手,“6100亿美元的AI庞氏骗局崩盘”》[1]

《NVIDIA 的 53 天魔术:一场隐藏在财报里的“循环融资游戏”》[2]

同时, 桥水公布的持仓数量相比第二季度723万股, 减持比例高达65.3%, 软银也清仓了NV的股票. 当然还有“大空头” Michael Burry开始做空NV, 并且对于GPU折旧的算法提出质疑.

另一方面Jensen似乎也在抱怨, 明明业绩超预期, 为什么还跌. 并且反复强调NV的价值. 说实话NV确实是一个非常棒的公司, 从技术上来看, 为什么从ChatGPT出来了这几年内, 没有一个成熟的挑战者? 特别是在美国这样一个足够开放竞争的市场内, 真的是CUDA生态的壁垒么? 或许还应该去很多细节上看看. Nv是一个非常强的系统解决方案公司, 而不是一个单纯的集成电路公司. 虽然其他很多GPU相关的竞对公司都在各个领域补齐短板, 但其自身GPU的微架构的很多缺陷以及在多种workload下的性能雪崩... 有些事情就不多说了...

1. 云计算的实质是流动性管理

但是从市场来看, Nv最近几个月做的并不是那么的好, 特别是那些neocloud的小兄弟们.. 实质上暴露了一个很关键的问题: Nv基本上不太懂云计算是什么. 至少我没看到Jensen详细阐述AI Cloud 和 AI Factory的区别是什么? 也没在产品上领教到他们为云设计的功能, NV对于真正的云计算其实这也是很多设备厂商积重难返的一个问题. 例如思科这样的设备提供商也完全错过了转型为CSP的机会, 很大程度上就是那种根深蒂固卖硬件盒子的思维方式.

去年的这个时候还调侃着写了一篇文章《把GPU当成一个金融产品如何上杠杆?》没想到今年正剧上演.... 对于NV认知中的云或者其自身利益的角度来看, 最好每个模型厂商自建一个巨大的AI Factory, 实际上到底有没有泡沫? 本质上还是一个流动性管理的问题, 而不是简单的卖铁逻辑.

实际上云计算的实质和银行是类似的. 比尔盖茨曾说过:"Banking is neccesary, Banks are not". 王坚博士讲过:"计算,为了无法计算的价值(Computing for Value Beyond Computation)". 本质上博士也是在阐述计算的价值,那么照着写一句:"Computing is neccesary, Computers are not".

也就是说, 算力是必须要的, 而算力本身的构成是多种多样可以按需分配的. 当然对于算力的提供, 有大量建设的私有云集群, 或者其他专有集群租赁模式. 但这种IDC机房的算力租赁是不是云? 这是很多人认知上有极大缺陷的地方.

云计算的实质是给算力上杠杆, 但是更加关注其流动性风险, 然而现在的几个NeoCloud, 基本上都还是需要单一客户的长期订单, 任何的违约都会陷入到极大的经营困境中. 也就是说实质上这些NeoCloud对于流动性风险的管理是完全无知的. 在H卡的时候, 反正供不应求, 因此根本不太需要很复杂的流动性管理, 而在B卡的时代, 其实一切供需的平衡已经在发生微妙的变化了.

《锐评某友商说传统云还在卖铁: 从金融的视角谈云计算及其流动性管理》

话说你什么时候听过某个大银行告诉投资人, 我的贷款都是某个大客户长期的稳定的订单? 结果这个客户是某大?

2. 从营收上分析

其实在今年7月就以一个FRM的风控视角来详细谈论了GPU云的经营风险《谈谈GPU云的经营风险和流动性管理》, 里面基本上把最近的一些争议涵盖掉了. 无论是折旧还是单一客户违约风险等.

实质上的问题是Nvidia和它的NeoCloud小兄弟们并没有搞清楚到底什么是云计算. 其实流动性风险才是整个云经营管理的重点, Berkeley在2009年谈论云计算时, 有一篇著名的论文:《Above the Clouds: A Berkeley View of Cloud Computing》讲述了6点

  • 可以按需使用无限量的计算资源
  • 消除云用户的预先承诺
  • 根据实际需要支付短期使用计算资源的费用
  • 通过超大规模的数据中心等规模经济显著降低成本
  • 通过资源虚拟化技术简化操作并提高资源利用率
  • 通过多路复用的方式运行来自不同组织的负载,提高硬件资源的利用率

从金融的角度来看, 前两条讲的是算力要有刚性兑付, 第三条讲的是算力的租赁关系, 第四条到第六条讲的是类似于金融机构的云计算算力机构的经营管理. 实质上这几点诠释了云计算如何为算力上杠杆的逻辑, 以及如何提供流动性.

而最近几个月来看, 我们已经发现一些流动性风险的信号, 一个是Nv的应收账款, 一个是一些循环融资和承诺消费注入的流动性. 首先是FY26Q3的应收账款为334亿美元, 季度收入为570亿美元. 对比去年实际账期为46天, 今年的数据计算为53天. 当季是否有用下一个季度的订金收入冲抵降低DSO(Days Sales Outstanding, 应收账款周转率)? 未来几个季度是否有继续升高? 并且客户集中度也非常高.

另一方面是库存的升高,FY26Q3末期的库存总额已经到198亿美元, 环比增加了32%, 库存周转天数DIO目前已经达到117天. 实际上库存的增加和另一方面供不应求的现状是非常矛盾的..

接下来还有一些循环投资交易的问题, 特别来说是多年度云服务协议从126亿美元飙升到260亿美元. 即NV承诺未来向云厂商购买260亿美元的云服务. 简单的来说, 就是把GPU当成一个金融资产, 售卖后再高价回租并给予相应的收益给云厂商. 实质上和那些承诺收益的理财产品有什么区别呢?

另外关于折旧率的问题似乎也不停的吵架, 一方面说A100到现在都还在上架用着产生价值, 而另一方面微软的Satya又在说H200的卡在吃灰, 其实在没有相对确定的return的时候, 才会毫无意义的掰扯折旧. 无非就是想把前一代卡的亏损通过更长的折扣贴到远期, 然后用新一代卡的近期更大的规模和应收掩盖掉前一代的亏损. 然后越滚越大, H卡规模必须要远大于A卡财务上才能打平, 紧接着B卡规模又要远大于H卡才能把这个击鼓传花的游戏玩下去....

营收这一段, 通过反复的投入到OAI/Anthropic等公司, 又转化为订单, 引起一个很大的循环投资. 这些内容就不展开了.

关于折旧

其实每一代的卡折旧都是不同的. 对于A100已经到生命末期, 虽然有些搜广推, 特别是所谓的生成式推荐(GR)的系统也可以用到, 但是H卡已经出现闲置的情况下, 无论是算力还是性价比, 将A100下架和残值处理完无疑是最好的选择. 它的生命周期按照5年算是合理的. 而针对H卡, 实际上很多已经运行了两三年, 而未来2年还会有继续作为一个成熟的平台使用. 直到FP4这些精度的模型逐渐成熟起来. 而对于B200/GB200就不同了, 很有可能它是一个非常短命的平台. 可能它的折旧周期大概只能算3年甚至更短. 一方面是由于GB200的稳定性问题延误交付和快一年的时候, 真的大规模开始部署的时候GB300都出来了, 另一方面是芯片架构上的一些问题, 在同样FP8的模型训推常见相对于H卡并没有很大的优势, 甚至某些case还会较差一些... 然后FP4的应用和生态成熟估计还有1~2年, 因此这些时间B200和GB200的租赁溢价并不高. 大规模的这两款卡投入的云将会面临很大的经营压力. 因此个人一直觉得B200/GB200并不是一个值得投资的产品, 可能B300才会稍微成熟一点, 但是需要工业界完全获得FP4的收益后, B300的价值才会被认可.

另外, Satya最近一次访谈在说要去抓一些长尾的客户? 也流露出一些有趣的信号. 实际上是在希望逐渐的分散单一客户的风险. 总体来看AWS/Azure/Google这些老牌的云计算厂商似乎对于流动性的关注要比那群Neocloud的小兄弟成熟多了...

3. 从技术上分析

其实关于新的Blackwell架构已经有一篇很详细的分析 《Inside Nvidia GPU: 谈谈Blackwell的不足并预测一下Rubin的微架构》, 很明确的一个观点就是现在无论是B200还是GB200在性价比上并没有达到对H卡的替代优势, 甚至有些workload下性能还会更低一点.

FP4的优势可能还需要1年多的时间才能获得, 因此我一直有一个判断, B200/GB200是一个注定短命的产品, 需要减少其投资, 特别是GB200在互连上遇到的问题, 其实在以前《三万亿的破绽》中也讨论过很多相关的问题.

实质上GB200做为一个系统方案来看, 无论是训练还是推理的ROI还是有一定问题的, 然后从前期因为可靠性问题逐渐延误又很大的压缩它的生命周期.

本质上可以归纳为几点:

  1. GPU进入了一个新的牧本周期, 逐渐DSA化的过程, TensorCore越来越大, SM越来越少, 编程接口的演进是一个难题, 特别是针对后来的Rubin Ultra等, CuTile这些生态但凡有一点失败都会拉开一个大的口子. 而事实上我们比较喜闻乐见的就是TileLang 这些生态和一些其它的硬件在这个牧本周期取得一定的成功.
  2. 互连架构上, ScaleUP上NVLink还是大概率能守住的, 特别是Intel ARM 等加入NVLink FUsion生态后, 会有一些改观. 甚至还有一个比较不符合当今审美的观点: ScaleUP这种小型机/大型机的解决方案真的有用么? 其实对于云服务提供商更倾向于使用便于扩展的ScaleOut技术, 但是ScaleOut上实质的原因是RDMA Verbs接口根本就不是一个对GPU友好的接口, 这里会存在一些变数, 但是让Nvidia去放弃RDMA显然有更大的阻力, Nv内部的计党和网党估计还有非常大的争议.

当然我们还是不得不承认Nvidia当前是一个无法取代的公司, 在很多细节上都做的很不错. 例如CTA/CGA的负载均衡, Warp调度, 编译器的优化, 片上互连网络等很多非常基础非常细节的地方做的很不错, 这些细微之处才是真的拉开与其它GPU厂商差距的源头. 而其它公司(例如AMD还有一众国产卡的公司, 似乎压根就不太在意这些细节....)

至少未来两三年内, 能够在实际多种工况下和Nv打成平手的竞对厂家还是相对较少的. 而针对国内就不多评价了, 只希望技术栈的覆盖广一点避免走进局部优化的死胡同吧...

最后还是按惯例: 本文内容仅是个人的分析, 不构成任何投资建议,也不作为任何法律法规、监管政策的依据,投资者不应以该等信息作为决策依据或依赖该等信息做出法律行为,由此造成的一切后果由投资者自行承担。

本文来源于:zartbot

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章