万字拆解AI瓶颈:磷化铟紧缺已是“灾难”,下一个爆发点在“电网保卫战”

AI军备竞赛的瓶颈,正从GPU与HBM向更隐蔽的基础设施环节蔓延。匿名分析员@bubbleboi指出,磷化铟光学器件已进入“灾难级”短缺,DRAM/HBM三大厂全面爆满,而真正被低估的下一站,可能是AI数据中心背后的“电网保卫战”——固态变压器与功率半导体。

AI基础设施的军备竞赛正在将供应链压力从芯片本身向外蔓延,覆盖光学器件、电源半导体乃至数据中心外围的电网管理设备。在HBM短缺和算力扩张已被市场广泛定价之后,新一轮供应瓶颈正在更隐蔽的环节悄然成形。

周六,AI圈研究博主Chris Barber与知名匿名分析员@bubbleboi讨论了AI供应链瓶颈与基础设施问题,系统梳理了AI供应链各层级的紧张程度,并点名了多个尚未被市场充分认识的潜在爆发点。

在@bubbleboi的排序中,磷化铟(indium phosphide)相关的激光与光学器件已是"完全的灾难",DRAM/HBM短缺持续恶化,而电源半导体虽然目前尚不构成瓶颈,却是他最看好的"下一个爆发"方向——尤其是数据中心外围的固态变压器市场。

磷化铟:当前供应链的“灾难级”瓶颈

磷化铟是他措辞最为激烈的一个环节。"磷化铟的情况非常非常非常糟糕,"@bubbleboi表示,"很多人还没意识到有多严重。"

问题的根源在于CPO(共封装光学)技术的推进对激光器提出了更高要求——更高功率意味着更大的芯片面积,更窄的线宽和更好的噪声性能同样推高了对磷化铟晶圆的需求。与此同时,磷化铟的加工链条——从矿石到晶体、再到外延片、最终到激光器印刷——每一个环节都处于严重供不应求的状态。

这一短缺正在重塑光收发器市场的格局。

传统上,每一代收发器(如400G、800G)在初期以EML(磷化铟单片集成调制器)为主,随后逐步向硅光子(SiPho)迁移以降低成本。但这一次,1.6T收发器几乎从一开始就由硅光子主导——原因正是EML供应的严重短缺,以及制造商将产能向利润率更高的连续波(CW)激光器倾斜。

DRAM与HBM:三家寡头全线爆满

内存是@bubbleboi排名第二的供应瓶颈。

他的核心判断是:全球只有三家公司能够生产DRAM——SK Hynix、三星和美光——三家均已满负荷运转,短期内没有新产能上线的可能。

围绕HBM4的技术路线之争,他认为市场过度解读了其中的戏剧性。SK Hynix选择台积电12纳米制程制造HBM4基础芯片,三星使用自研SF4X逻辑节点,而美光坚持沿用内部DRAM制程,导致进度落后。

但他认为这些差异对财务影响有限:"三家都会以相当高的毛利率卖光所有产品,谁在乎呢?"他补充说,即便美光HBM4未能进入英伟达Rubin平台,也可以将产品卖给其他客户,或以高价出售普通DRAM。

他将DRAM和HBM视为同一类别,并表示相比NAND闪存,他更偏好DRAM,原因是NAND更容易出现供过于求的情况。

“电网保卫战”:AI尽头的固态变压器与功率半导体

相较于已经被市场高度关注的算力芯片内部竞争,分析师将最大的“想象空间”留给了数据中心之外的电力交付系统。

AI数据中心对电网构成了前所未有的挑战。当几万到十万张GPU在训练间隙停止计算、进行互联通信时,电网负载会发生剧烈的波动。“这对电网运营商来说是一个‘恶魔般的噩梦’(satanic nightmare)。”

访谈中披露了一个极具戏剧性的细节:

去年PyTorch团队甚至在代码中加入了一个名为“Power Plant No Blow Up(发电厂别爆炸)”的特殊标志。其作用是,当GPU不需要做数学运算时,强迫它以最大速度进行“垃圾计算”。

“假设你的芯片正常运行需要500瓦,不工作时本应降至200瓦。但现在不行,必须全程保持500瓦,因为我们不能让电网运营商生气。”负载的剧烈拉扯会反向传播并破坏电网稳定,这也是许多AI数据中心拿不到电力许可证的核心原因。

为了解决这一痛点,基于碳化硅(SiC)和氮化镓(GaN)等宽禁带材料的“固态变压器”正迎来产业拐点。传统变压器体积庞大且完全是被动器件,交付周期长达12到18个月;而固态变压器虽然昂贵,但可以通过晶体管进行动态“负载调节(Load regulation)”。 “你可以动态编程,确保两侧的电流和电压基本一致……电网运营商会更高兴,你也能拿到供电许可。”

分析师预测,这项技术将在未来36个月内起飞,相关功率半导体公司(如Wolfspeed以及部分从光伏逆变器转型的公司)虽然目前处于周期低谷甚至亏损,但在AI电力调节需求的驱动下,具备极大的重估弹性。

逻辑晶圆与先进封装:边际改善,但仍紧张

相比磷化铟和内存,@bubbleboi认为逻辑晶圆的情况在过去六个月有所改善。

台积电产能依然紧张,但三星先进逻辑产线的利用率已从接近零回升,英特尔也开始接受外部客户。

他认为先进封装(CoWoS、EMIB)的紧张程度将低于市场预期,部分原因是英特尔在马来西亚的产能正在扩张,且台积电更倾向于将洁净室空间用于毛利率更高的N3制程。

CPU短缺与另类加速器:被忽视的隐患

@bubbleboi将CPU列为"大问题",认为其短缺程度超出市场认知。

AMD面临GPU与CPU争夺台积电产能的两难困境,ARM自身没有晶圆配额,而他认为唯一有能力填补缺口的是高通——因为安卓手机需求下滑导致高通在台积电有闲置产能,可以转产数据中心CPU。但他对高通能否成功持怀疑态度,"他们已经失败了三次"。

在另类加速器领域,他对Positron和Cerebras持正面看法,但对Cerebras有明确批评:仍在使用FP16而非FP4是"愚蠢的错误",IO设计限制了KV缓存卸载能力,且封装良率可能仅在20%至40%之间。

对于Taalas,他认为其将权重硬编码进芯片层的工程设计"非常非常聪明",可将芯片设计周期从一年以上压缩至两到三个月,且无需HBM或任何先进封装,成本极低。但他对其商业前提持怀疑态度——AI模型权重更新频率极高,而Taalas要求50%至90%的权重固定不变,"我不认为AI公司会接受这个前提"。

最后,当被问及“如果你是黄仁勋,你会试图锁定什么供应链”时,分析师的一句原话为目前的AI硬件竞争做出了注脚: “他已经锁定了所有东西的产能。我本来想说光纤,但他已经去跟康宁谈交易了。我认为这个人是神(the man is a god),他已经把能锁定的全都锁定了。”

以下是采访问答文字实录(由AI协助翻译)

Chris:三到五年后,哪些替代性加速器可能会承担非常大量的训练或推理任务?

@bubbleboi:训练方面,我认为它们基本上都不行。推理方面,我非常看好Positron和Cerebras,但原因截然不同。还有谁呢?MatX。问题是我没有足够的信息。所以它可能不错,但我对他们一无所知。所以简单回答就是Positron和Cerebras。还有Taalas,我不太相信他们的前提,但这很酷,我有点想为他们宣传一下,因为如果前提成立,那将非常惊人。但我认为AI领域的人不会容忍这个前提。是的,这些是我真正喜欢的三巨头,MatX在旁边,因为我不够了解。我仍在努力让他们同意和我谈谈。

Chris:你不同意的Taalas的前提是固定权重?

@bubbleboi:他们正在做的是使用上层掩模层来烧录权重。一旦你有了权重,就无法更改。鉴于AI模型变化如此之快,比如每两周就有GPT 5.5,然后是5.6。如果你和这些公司工作的人聊聊,模型内部在 constantly 变化。模型末尾有个十六进制数。每隔几周就有更新。权重在不断变化和微调。

Taalas表示他们支持微调。我认为他们的意思是,当前芯片支持对权重进行一些修改,但远未达到你想要的那么多。他们当前的芯片是三分之二硬编码权重,三分之一只是SRAM机器。他们能支持微调的原因是那三分之一是SRAM,你可以更改或微调一部分权重,或者做LoRA之类的事情。他们基本上是在跟客户说,你的模型硬编码越多,运行得就越快,但你需要做出权衡。在理想情况下,有人可以设计一个模型,其中90%的权重是硬编码的(我随便说的数字)。它会运行得超级快。然后10%用于LoRA或更新权重。我不知道是否有大客户会接受这种程度的限制。我认为不会。但Taalas背后的工程实际上非常非常聪明。

他们使用上层掩模层。现在的芯片大概有14层,姑且说是14或15层。他们用上层三分之一中的一层来编程和硬编码权重。所以你想一下,通常芯片设计最少需要三个月,通常更久,然后需要流片,再过五六个月芯片才能回来,然后还得验证。Taalas不得不为他们自己的编译器、验证栈和芯片设计制作了一堆定制EDA工具,他们声称一天之内就能完成一个新模型。最终目标是。目前大概需要一周。所以设计需要一周,然后因为他们只更改上层,其中一层,他们可以储存晶圆。所以如果你去台积电或任何晶圆厂,这在行业里很常见,你可以说,嘿,我希望你们把X数量的晶圆保持在70%的完成度,先别完成最后一部分,因为我们正在做研发之类的。所以Taalas的周转时间比我最初预期的要快得多。新设计需要一周,然后大概两个月。这是我的估计,肯定不是六个月。所以两个月内你就能拿回芯片并运行它。他们声称他们制作了一些非常聪明的Verilog编译器工具和线程仿真工具,与标准EDA工具对接,以很好地验证一切。所以后硅验证应该没问题,因为芯片的基础设施已经验证过了,你只是改变权重。他们把原本至少一年的流程从开始到结束,理论上缩短到了两三个月,这还不错。

从模型架构的角度来看,我更像一个硬件人。我不太懂模型架构。我努力想弄明白,好吧,如何实现大部分权重固定,只改变一部分权重,比如单层中的权重之类的。然后我发现了LoRA,我问了那些真正懂AI的人,他们告诉我,哦不,LoRA不能扩展之类的。这很蠢。只有失败者才用LoRA。但如果前提确实成立,如果他们找到一个愿意使用LoRA或其他算法的客户,其中很大一部分权重是固定的,并且我们会 constantly 服务这个模型,这样才经济,那么Taalas的经济效益将是惊人的。芯片非常便宜。它不需要任何HBM或任何类型的内存。不需要任何类型的先进封装。即使是PCB,他们在芯片到芯片通信上受到延迟限制,完全没有带宽限制。所以他们使用PCIe和CXL,他们目前的主要限制是他们的芯片上没有最新版本的CXL,显然CXL 3.0提供的一些功能会对他们有实质性的帮助。但他们目前也还好。所以你将拥有惊人的、不可思议的性能(在其他任何架构中都不可能实现),而且价格极其便宜。只是有这样一个限制:很大一部分权重,可能在50%到90%之间,需要是固定的,你不能更改它们。要更改它们,你将不得不扔掉所有或大部分芯片,然后等待两到三个月,而新设计的成本大约是25万美元。

拿Taalas的CEO来说。他在一次采访中说,新版本芯片的设计成本“相当于一台H100服务器”。假设你运营一个数据中心,用Taalas芯片服务某个模型,你决定扔掉所有Taalas芯片,因为模型需要更新。所以你必须注销这笔资本支出,付给Taalas额外的30到50万。最坏的情况是,他们在两三个月内为你制造新芯片,然后你部署它们。再说一次,没有内存问题。甚至没有PCB问题。你可以使用低质量的PCB材料,因为它们只是运行非常慢的PCIe。所以这可能行得通。我只是对模型了解不够,看不出它是否真能行得通。

Chris:在堆栈的不同层面中,你认为未来几年哪些最终会面临最严重的供应限制?

@bubbleboi:是的,几乎所有。如果你在一月或二月问我,我会给出截然不同的答案,但现在 所有 都受限。

Chris:为什么市场从去年九月左右开始对此疯狂?

@bubbleboi:我不明白这点。有时候市场真的很奇怪,我跟很多对冲基金的人聊,我会说,你们很聪明,为什么现在才意识到这个?很奇怪。

Chris:宏观观点是不是大家都开始明白了,好吧,超大规模企业的资本支出将继续增加,至少绝对值上会增长?

@bubbleboi:是的,宏观情况是人们不断地来回摇摆。我给你举个有趣的例子。有人告诉我,传统能源投资者都在做空Bloom,因为他们觉得,哦,Bloom太贵了,天然气涡轮机更便宜,这是个泡沫。我说,哥们,这是关于通电时间的问题。你们完全错过了重点。

Chris:他们不了解这类客户面临的限制。

@bubbleboi:我知道。你不明白人们为什么选择这个。不是因为更便宜。每兆瓦的经济性可能差很多。但你现在就能拥有它。如果你必须将数据中心项目推迟至少六个月,……我跟更多专注于AI和半导体的对冲基金聊过,他们说,哦,我们知道其他那些做空Bloom的能源对冲基金。为什么要自寻死路做空这个?金融世界里有很多奇怪的事情。所以我无法解释。

Chris:哪些其他层面最终会成为瓶颈?

@bubbleboi:磷化铟情况非常糟糕。简直不可思议。我不知道很多人会怎么办,但任何与磷化铟相关的事情都真的、真的、真的很糟糕。

磷化铟用于激光器和光学器件,因为硅无法产生光。人们仍然不明白情况有多糟,因为CPO对激光器的噪声性能提出了更高的要求。

Chris:比如Aixtron?

@bubbleboi:哦,是的。所以他们制造用于磷化铟生产的设备。他们某种程度上不是瓶颈,嗯,他们可能是,但他们正在制造更多的机器,而像Lumentum、Coherent和Sumitomo这些公司正在购买这些机器。我做多这些。更像是Lumentum和Coherent的产能问题。衬底领域,AXT、Sumitomo、IQE等等,这些才是瓶颈。

Chris:IQE是什么?

@bubbleboi:有家英国公司,我认为他们做外延。在这个磷化铟制造链中有很多名字。目前基本上都是一场灾难。

Chris:基本上就是没有足够的磷化铟供应全球?

@bubbleboi:是的,嗯,磷化铟矿目前我认为还好。但是将磷化铟加工成晶体,然后制成晶圆,然后在晶圆上做外延,再把激光器印制到晶圆上,所有这些,完全是一场灾难。因为CPO激光器的工作方式需要更高的功率,这意味着你的芯片尺寸必须显著增大,并且它们需要更窄的线宽和更好的噪声性能,这通常意味着你必须增大芯片尺寸。

这也是为什么SiPho和Tower Semi涨上天的部分原因。传统上,收发器世界的工作方式是,从EML开始,它基本上就是一个单一的 monolithic 磷化铟芯片,包含调制器(用于上下摆动光)和连续波激光器,都在同一个磷化铟芯片上。由于物理原因,EML的性能总是优于硅光。通常,在每一代收发器(如400G或800G)推出的一两年后,人们开始转向SiPho以节省成本。你设法让SiPho的性能足够好,然后省钱,因为现在你不再购买大的EML,而是购买一个更小的连续波激光器,然后把它放进SiPho模块里进行调制。

但无论如何,这次SiPho涨上天了,因为每个人都想,等等,EML短缺了,然后那些生产EML的公司也生产CW激光器,他们正将产能重新分配给CW,因为它的利润率更高,需求也更大。所以现在CPO的需求正在扼杀已经严重供应不足的EML供应。现在,1.6T收发器是第一代SiPho几乎从一开始就占据主导地位的产品。我认为在六个月内它就占据了多数份额。我不知道完整的数据,但这完全不同。如果你看看每一代收发器以及SiPho与EML的市场份额对比,这次完全不同。这是因为磷化铟严重短缺。

接下来,我认为是内存,因为没有洁净室产能。有人问我这个问题,也不是完全愚蠢的问题:哦,三星,他们有逻辑晶圆厂和内存晶圆厂,为什么不直接把逻辑生产线重新分配给内存?因为内存晶圆厂在使用的设备、工艺和 所有 上都完全不同。所以只有三家公司能生产DRAM。它们全部被订满了。短期内不会有新产能上线。

Chris:也就是Hynix、Micron和Samsung?

@bubbleboi:是的,这三家。所以这是第二严重的瓶颈。但人们对此非常清楚。

Chris:这三家内存制造商之间差距大吗?

@bubbleboi:我个人认为这不重要。有很多戏剧性和噪音。供应如此短缺。任何东西都能以80%的毛利率卖光。谁在乎?历史上SK Hynix明显领先,三星则有点自焚。情况非常糟糕。美光大概是第二。现在关于HBM4的 die 速度有很多内幕消息,来自供应链爆料人的各种噪音。基本上对于HBM,在HBM4、3E、3之前的所有HBM,其基础 die(包含许多接口逻辑电路)都是在内部DRAM工艺节点上制造的。这之所以重要,是因为它更便宜,因为DRAM厂商用自己的晶圆厂来制造。但晶体管质量差得多。DRAM是为慢速、微小的晶体管和巨大的电容设计的,而不是为逻辑设计,所以速度受限。

所以到了HBM4, 所有人 某种程度上被迫放弃了这个策略。嗯,他们本应放弃这个策略。实际情况是SK Hynix去找了台积电,开始使用12纳米级别的工艺。这比他们用内部DRAM工艺拼凑出来的垃圾要好得多。但仍然是12纳米,不是很好。三星有自己的内部SF4X逻辑节点,不是4纳米,我最多说它能跟台积电N6打平,或者在台积电N6和N7之间。对于它需要做的事情来说相当不错。美光很蠢。他们说,不,我们要用我们自己的内部DRAM工艺。他们有点搬起石头砸自己的脚,耽误了自己。然后有很多 drama,哦不,美光进不了Nvidia Rubin。没人在乎。他们只会以天价卖出更多的普通DRAM或HBM3E。这些都不重要。这三家公司都将以相当高的价格卖光他们拥有的所有产品。质量差距现在相当接近了。以前三星的HBM3非常差,没人能用。某些人无论什么价格都不会用三星的HBM3,因为有很多功耗问题。它太耗电了。但现在它们都足够接近了,好吧,假设英伟达标准更高,拒绝了美光的HBM4,他们会把HBM4卖给其他人,或者干脆以惊人的毛利率出售普通DRAM。这不会在财务上影响美光。所以这方面幕后有很多 drama,我认为坦率地说很愚蠢。

Chris:当你说内存时,你特指DRAM还是HBM和DRAM?

@bubbleboi:是的,我说DRAM时就把HBM包含在里面了。都是同类的。我把内存分为DRAM和NAND闪存。就这两类。DRAM就是所有不是NAND闪存的内存。

Chris:你说的第三大瓶颈是逻辑晶圆厂?

@bubbleboi:你可以看到英特尔涨上天了,问题正在解决。问题是台积电就是没有足够的产能。他们太保守了。六个月前,三星在先进逻辑上基本上没有利用率,几乎为零。而英特尔只供内部用。现在有外部公司涌入,三星的利用率也变得相当高了。所以有一些弹性空间,逻辑情况在二月份看起来非常糟糕。现在好多了。虽然仍然相当糟糕,但没有恶化。内存和磷化铟在过去六个月恶化了。逻辑有所改善,但仍然相当糟糕,因为建设这些生产线需要很长时间,而且再次强调,只有三个玩家:三星、英特尔、台积电。

Chris:过去六个月还有哪些瓶颈恶化了?

@bubbleboi:不,主要是那两个类别。我不认为功率半导体情况会变糟,但我认为它们是最有趣的类别,因为电动汽车情况不佳,所以有很多闲置产能。

Chris:你能解释一下功率半导体吗?

@bubbleboi:功率半导体将电力从一种电压转换为另一种电压。你可以这样想。你有一个几千伏交流电的电网。你需要将其转换为较低的交流电,然后最终需要将其转换为直流电压。800伏直流,400伏直流,240伏交流。最终经过几个步骤后,你的高端逻辑芯片消耗大约1.2伏左右。更准确地说,每个高端逻辑芯片,那些3纳米的芯片,标准电压大约是0.75伏。还有一些高压侧电压,比如1.1伏或1.5伏。所以你必须从非常高的电压降到芯片所需的低得多的电压。因此需要多个转换阶段。有些材料叫宽带隙材料,碳化硅和氮化镓,由于物理原因,它们比硅好得多。

Chris:效率更高,所以节省能源成本,并且需要更少的冷却?

@bubbleboi:是的,没错。效率更高。而且能承受更高的电压。你试着把硅芯片放在同样的位置,它会烧掉,会自毁。

Chris:在你提到的公司中,TI、Navitas、onsemi、Infineon,你最喜欢哪个?

@bubbleboi:嗯,这周末我会发帖。快写完了。目前在氮化镓领域,TI和Navitas并列第一,Infineon远远落后第二。onsemi声称他们有很厉害的东西叫垂直氮化镓。但只是幻灯片。没有数据表,没有实际规格。只是说,我们做了个东西,它会有这些惊人的数字。好吧,当然。所以onsemi,也许他们有东西,也许没有。在碳化硅方面我还没搞清楚,还需要几天。但碳化硅方面一个有趣的玩家是,它是一个 meme 股票,但也不是 meme 股票。那就是Wolfspeed。

Chris:给我讲讲Wolfspeed。

@bubbleboi:他们 massively 过度建设了产能。他们是纯碳化硅公司,并且垂直整合。他们制造晶圆、衬底,他们制造器件, 所有 都在内部完成。

Chris:顺便问一下:对冲基金找你,只想听听你对某些事情的看法,你这样做是因为好玩,这样你也能了解他们问什么问题?

@bubbleboi:我也在学习。我了解到这些人的思维方式。因为我只是个小人物。我不影响市场。这些人才影响市场。他们也分享想法。特别是Wolfspeed,就是从一次对冲基金谈话中得知的。

Chris:Wolfspeed是从对冲基金谈话中得知的?

@bubbleboi:那是从五个来源来的。这是一只非常有趣的股票。他们是垂直整合的,100%美国本土。他们过度建设了碳化硅产能,然后被中国竞争和电动汽车 downturn 打击了。他们真的破产了,第11章破产。他们不久前才从第11章破产中走出来,我想大概是四个月前。我得查一下。但确实是很近期的事。因为你的供应商破产了, 所有人 停止从他们那里购买。所以他们的工厂利用率据称只有30%左右。非常非常低。现在他们回来了。问题是,如果市场有所好转,这只股票能涨5倍。杠杆率太高,太疯狂了。但它刚刚破产。而且它的毛利率是负的。你可以看他们最新的财报。他们的毛利率是负20%。他们的指引是,我们预计毛利率将继续为负。他们 literally 每生产一颗芯片就亏钱,因为产能利用率太低了。

现在有趣的是,也是人们一直找我的原因,是Wolfspeed推出了这个10千伏的碳化硅芯片。这些芯片 literally 就是一个晶体管,一个必须承受 insane 电压和电流水平的超级、超级强壮的晶体管。目前市场上额定电压最高的碳化硅晶体管在1700到2000伏范围内。Infineon有一个3.3千伏的器件。除了Wolfspeed,没有人有高于这个的。Wolfspeed说,哦,我们可以做一个10千伏的器件。我看着这个数据表,这东西简直是 insane。我不知道他们到底是怎么做到的。而且不是一眼就能看出,它到底是更好还是更差?因为晶体管只是开关,理想情况下,当你打开晶体管时,你希望它是一个完美的开关,没有电阻。但这从来都不是真的。总会有一些寄生电阻。所以当晶体管导通时,它就像一个微小的电阻(这是过度简化了)。我看着这个Wolfspeed器件的寄生电阻,以及损害开关速度的寄生栅极电容,并将其与竞争对手完全不同的器件,比如2000伏和3000伏的器件进行比较。寄生参数更差,但你只需要一个这样的器件,而不是三个。我不得不查看一些电路仿真来弄清楚。我认为这个10千伏的器件实际上相当不错。它将用于基础设施。在数据中心里完全没用。当我告诉这些基金的人时,他们说,哦不,它在数据中心没用。我说,兄弟,你错过了大局。固态变压器。你需要为高压交流电和数据中心之间的电网提供负载调节。

所以我更看好位于数据中心外部的电力输送,而不是数据中心内部的。我觉得每个人都在关注谁会在英伟达设计和OCP设计的电源架中胜出,物理上位于数据中心内部。这是个有吸引力的机会。但位于数据中心外部、介于数据中心和电网之间的东西,也非常有趣。事实上,可以说更有趣。所以是的,我喜欢功率半导体。我认为这将是下一个爆发并成为瓶颈的东西。它不会成为主要瓶颈,因为电动汽车基本上不行了,所以有很多闲置产能。但它是最令人兴奋的,因为情况将会发生变化。

Chris:你更看好数据中心外部的电力输送,而不是内部的?

@bubbleboi:你有没有开车经过看到变电站附近那些圆形的东西,还有那些大箱子?那些是传统的变压器。它们的工作原理是,你有一个巨大的铁芯,然后一侧绕着一堆铜线圈,另一侧也绕着一堆铜线圈。这些基本上是无源器件,你可以将比如100千伏的交流电转换为35千伏的交流电,然后将35千伏的交流电转换为7千伏的交流电,然后再将其转换为240伏、120伏的交流电进入你家。或者转换为2000千伏的交流电供给工业用户,用于长距离输电。你想要极高的电压以减少电力损耗。但要实际使用它,你必须用变压器降压。这些变压器通常是被动的、笨重的东西,它们很糟糕,因为购买它们需要很长时间。你现在下一个订单(这还是在AI热潮之前),然后12到18个月后他们才会给你,因为它就是一大块金属。制造它需要很长时间。

我认为人们不理解的是,他们在AI数据中心方面遇到了一个大问题。想想看,假设你在电力公司工作,比如PG&E。你有新客户接入你的电网,你必须管理他们,他们的负载在剧烈地上下波动。这些客户会说,哦,我们现在需要一千兆瓦。然后五分钟之后,不,实际上我们只需要八百兆瓦。这对电网运营商来说简直是恶魔般的噩梦。我不知道你有没有看到,去年推特上流传,PyTorch团队添加了一个特殊的标志,叫做"电厂别爆炸"。这是个有趣的事情。那么这个标志是做什么的?当时发生的问题是,你有很多GPU,1万个,10万个。它们在为训练做大量计算,然后其中一些要么停止计算,要么以低得多的速率计算,因为它们在进行互联、互相通信、全归约等等。这导致了电网的不稳定。电网运营商说,无论你在做什么,停下来,否则我们就要切断你的连接。这很危险。你们在 破坏 电网。所以PyTorch中这个标志的作用是,如果GPU不需要做计算,也强制它以最大速度进行计算。就让它做垃圾计算,然后把垃圾结果发到 nowhere。假设你的芯片运行在500瓦。正常情况下,如果不工作,你会希望它降到200瓦。但在这里,不,我们不希望它降到200瓦。让它一直保持在500瓦,因为我们不希望电网运营商对我们发火。电网运营商生气的原因是,如果你考虑一个电力系统,当你有这些无源组件,这些无源变压器时,任何对负载的推拉都会反向传播到电网,使其不稳定。这在过去还好,因为电网人员会管理这些事情,并且有一些稳定电网的变通方法。但现在情况不再是这样了。

我们刚谈到了普通变压器。现在有固态变压器。我不知道为什么叫固态变压器,因为以前的变压器也是固态的,它们是无源的。与其用一大块铁和一堆铜线圈,不如用碳化硅芯片构建一些电路,你可以做同样的事情,将高压交流电转换为低压交流电,甚至直接将高压交流电转换为直流电。为什么人们以前不这样做?这东西从2020年就有了。它更贵。你可以尽情抱怨传统变压器,但它们便宜,你等上12个月就能拿到货。固态变压器贵得多,但它们有一个巨大的好处。那就是你可以进行负载调节。你可以动态地编程固态变压器,以确保两侧的电流和电压大致相同。你可以改变开关频率。所以如果负载增加,你可以以更高的频率开关,或者如果负载减少,你就以更低的频率开关。

Chris:他们在固态变压器中使用功率半导体。

@bubbleboi:是的,所以这些是有源器件。它基本上就是一堆晶体管。不再是无源器件,一堆电感、铜线圈和一些二极管,而是晶体管。你通过打开和关闭晶体管来管理电力,不仅仅是转换电力,还要管理它,以便你得到一个干净的800伏,而不是800伏正负20伏之类的。或者输送1000安培,而不是1000安培正负10%。你可以调节它。这非常重要,因为这样你就不用在PyTorch中使用"电厂别爆炸"标志浪费电了,你可以降低GPU功率,你就能获得巨大的效率提升。电网运营商也会对你更满意。很多时候,许可问题,比如你试图建一个数据中心,但许可没批下来,你会想,为什么会这样?这是因为电力公司会说,你会破坏电网稳定。我们不能这样做。然后现在你可以说,好吧,我会安装一些固态变压器,这是我将如何不 破坏 你的电网的方案。然后电力公司会说,好吧,我把电卖给你,你自己接进去。所以人们通过各种创造性的方式绕过这个瓶颈。但我认为现在是时候做固态变压器并承担成本了,因为价值就在那里。是的,你为转换电力的那个箱子付了更多钱。但你获得了所有这些好处。我认为这将在明年开始加速。这更像是2027年下半年的故事。但股票的运作方式是,人们会搞明白然后提前买入。股票是 forward looking 的。所以这现在已经开始发生了,我认为在接下来的36个月里它会更加蓬勃发展。

Chris:相比于销售固态变压器的公司,你对功率半导体公司会更兴奋吗?

@bubbleboi:一般来说是的,因为至少我个人投资风格是理解工程,或者至少尝试理解,并且我能找出差异点。我在比较,我能看出谁的芯片比谁的好,谁能收取溢价。那些购买这些芯片并组装成箱子的公司,那里也确实有价值,因为涉及到控制方面。假设这个箱子有一千个非常强大的晶体管。如果没有保护电路和控制,那是极其危险的。你可能会烧毁连接到它的所有东西,产生电压尖峰。所以如何将这些功率半导体组合在一起有 careful 的设计考量。这里有两家公司。很多人一直在向我推荐这个,我之前没当回事。然后当第15个人发给我时,我说,好吧,我会读一读的。这两家公司叫SolarEdge和Enphase Energy。它们的历史是为太阳能电池板制造微型逆变器。太阳能电池板部署的问题是,太阳能电池板是直流的,但显然你家是用交流电的,所以你需要将每个太阳能电池板从直流转换为正确的交流电。然后还有很多安全方面的事情,你必须控制它,等等。所以这些公司为家庭太阳能部署做这些微型逆变器。自从家庭太阳能的税收优惠政策变差以来,这些公司彻底完蛋了。你可以看看它们的股价。2021年左右有个泡沫,然后它们跌了90%。它们现在就是垫底的股票。这些公司正在转向固态变压器。他们看到了机会。我还没时间深入研究,但我实际上认为这是靠谱的。这是一个超级愚蠢的想法。但我认为作为股票它实际上会涨。因为他们在这类器件的组装和保护电路方面非常有经验。而且这可以说比他们在太阳能领域做的更容易,因为你不是把它分布在整个屋顶上,你只是把所有东西放在一个盒子里,你可以更容易地进行过流保护。他们甚至有一些差异化的技术。Enphase有一个22纳米的控制ASIC。他们自己设计了22纳米芯片来控制所有这些微型逆变器,因为你需要进行一定程度的计算,并向所有这些模拟部件发送一系列不同的信号。这是一个分布式系统问题。基本上,你必须告诉一万个晶体管它们需要以什么速度开关,然后还要检测故障等等。所以他们有一个控制ASIC,这简化了他们的工作。这是一个真正的竞争优势。

Chris:Delta Electronics怎么样?

@bubbleboi:是的,Delta是大玩家。所以有Delta、Vertiv、Eaton等等所有这些大公司。这是他们的核心业务。这是他们已经做的事。这些股票已经涨了不少。SolarEdge和Enphase有吸引力的地方在于它们已经被遗弃了,没人关注。这些股票,如果成功,能涨5倍。你是想追逐像Vertiv那样已经涨了很多的,还是想追逐这种有点 degenerate 的?所以这很有趣。这不是个坏主意。它可能成功。你想赌一把,就把投资组合的0.5%放进去。当然,为什么不呢。

Chris:对冲基金一般都问你什么?

@bubbleboi:他们通常想听听我对某些事情的看法,因为我的投资记录是公开的,而且我的表现超过了他们所有人,不过请注意,我承担了 insane 级别的风险。这些家伙很多是市场中性的,所以我的表现跟他们比并不公平。但我确实做得相当不错。他们会问我意见之类的事情,很多时候都是技术性问题,因为我对估值一无所知。有时候有新基金问我,哦,你对估值怎么看?难道你不读我写的东西吗?但,是的,工程类问题。例如,Wolfspeed那个事。他们没人知道这个10千伏的碳化硅芯片到底好不好,以及会用在什么地方。我甚至觉得Wolfspeed自己也不知道它会怎么用,因为他们把核聚变反应堆电力输送写在了数据表和新闻稿里。我就想,你们这真是扯得太远了。很多时候,公司管理层会告诉这些金融人士一些事情,他们会问,他们说的是真话吗?我会回答是或否,或者情况复杂,你应该追问这些问题。所以主要是技术性的,但不完全是。

Chris:Cerebras,你现在怎么看?

@bubbleboi:我喜欢它。我也有一些 harsh 的批评。Andrew Feldman 显然对此非常清楚。他们用的是FP16,这是个愚蠢的错误。如果他们实现FP4,仅此一项就能获得3到4倍的容量。这是个容易实现的目标。这只是数字逻辑。他们还需要修复IO以卸载KV缓存。我不接受那种"哦,已经够好了"的论点。这是个糟糕的借口。如果你有机会把你的产品提升10倍,你就应该把它提升10倍。不要满足于平庸。最后,他们的毛利率表明他们的良率非常差。他们公开声称他们在晶圆级别的良率是100%,我相信他们,这意味着他们封装晶圆的良率是糟糕透顶的。大概在20%到40%之间。我不知道为什么这么差,但他们需要解决这个问题。我仍然对他们有批评,更像是我想成为一个积极的投资者。我正在买入他们的一些股票。我不会离开。我持看涨态度,但也很苛刻,因为它本可以好得多。Andrew Feldman 对IO问题持否认态度。我说,不,伙计,别再否认了,快修好它。你可以做得更好。就把产品做得更好。

Chris:你仍然看空 neo clouds 吗?

@bubbleboi:是的,有点。看看CoreWeave上个季度的情况。我认为基本上他们因为所有短缺(光学器件和内存)而面临更高的成本。所有的金融人士都问,你们通过合同把成本转嫁给客户了吗?CoreWeave的CEO试图回答这个问题两次,我完全不知道答案是什么。因为股价下跌了,我猜金融人士解读为,不,他们被坑了。他们签了长期合同,无法转嫁成本。

Chris:对最可能倒闭的 neo clouds 有什么看法?

@bubbleboi:那些小公司。CoreWeave足够大。Oracle足够大。Nebius可能也足够大。我不确定会不会倒闭,但最终会有问题。这里的债务水平。一旦出现 downturn,或者甚至如果加息,今年下半年可能会加息,那将对他们造成严重打击。这只是一个糟糕的生意。还有很多其他很棒的东西可以投资。就去投那些吧。我不明白为什么人们想拥有这些垃圾。

Chris:Terafab?

@bubbleboi:没有足够的信息,除了看起来他们可能在授权Intel 14A工艺。这是我对情况的猜测解读。没有信息。

Chris:CPO的推广会遇到很多问题吗?

@bubbleboi:我不认为会有问题。担心可靠性的人完全错了,并且不懂工程。问题将是磷化铟短缺,那非常非常严重。但部署方面,不,我不相信会有问题。如果你做得对,如果你做足了功课,就不会有问题。实际上它会比收发器更可靠。

Chris:对Amkor有什么看法?

@bubbleboi:没有,我不太关注封装领域的玩家。

Chris:那Ibiden或Unimicron呢?

@bubbleboi:没有,我不知道。没有看法。

Chris:Nokia还是Infinera?

@bubbleboi:哦,是的。它有潜力成为便宜得多的Ciena版本。所以如果你觉得,哇,Ciena涨了很多,估值很高,那么你可以买Nokia,他们也在尝试做同样的事情。所以我认为这是一个真正的价值投资。它是少数几个估值合理的东西之一。我目前没有持有,但我进进出出过,我需要更多时间来考虑。但,是的,我喜欢它。

Chris:你偏好的参与磷化铟的方式是什么?

@bubbleboi:主要是Lumentum。更冒险的做法是AXT,然后半导体设备方面是德国公司AIXTRON。就这三家。

Chris:你认为目前什么被炒作得最厉害?

@bubbleboi:我会说是microLED,因为我认为这是一个骗局。有大约七种microLED的替代方案,而且它们在客观上全都更好。所以,是的,我就是讨厌microLED。

Chris:GE Vernova。

@bubbleboi:我持有不少。我在一个只做多的账户里,大概在170的价位买了很多股。我的平均成本价大概在170到250之间。它已经涨上天了,嗯,我想我永远不会卖这个了。所以,是的,很棒。燃气轮机。我运气好,有人很早就给我透露了消息。他们的护城河质量很高。他们是少数能制造这个的公司之一。但到了这个地步,他们已经完全被订满了,股价也涨了这么多,我不确定股价还能怎么更高。产能从哪里来,或者涨价从哪里来?我不知道。

Chris:从你的只做多投资组合中选几个:Besi、Rigaku、台积电或Fujikura,哪个最令人兴奋?

@bubbleboi:Rigaku。

Chris:那是用于先进封装的X射线?

@bubbleboi:Besi已经涨了很多,所以在现在的价位买入,我不知道。但Rigaku,传统玩家是Camtek和Onto,他们做基于光学的先进封装检测。这些X射线机器传统上用于研发目的。假设你是台积电,你正试图开发你的2纳米节点,在研发部分,你需要真正深入地观察并弄清楚发生了什么,你会买几台这种Rigaku机器,把它们用于研发,然后再也不用了。现在情况已经发展到,由于全环绕栅极晶体管、背面供电以及下一代先进封装更严格的公差,你必须使用这些X射线机器。你用光学就完蛋了。所以Rigaku正从 niche 研发转向生产。Onto知道他们完蛋了,因为他们作为战略合作伙伴收购了Rigaku 27%的股份。基本上,在Rigaku机器上运行的软件就是Onto的软件。所以很多人说,哦,这对Onto是利好。不,不是的。他们知道自己造不出机器,所以就去买了能造机器的公司四分之一的市值,然后顺便卖点软件。所以,就买Rigaku。所以,是的,那是我最喜欢的专业 niche 半导体设备。我喜欢它。

Chris:从你的交易账户中:Tower Semi、Lumentum、Intel、Bloom、Semtech,哪个最令人兴奋?

@bubbleboi:Semtech。绝对是Semtech。其他的已经涨了很多。Semtech,我仍然认为人们没有完全理解他们做什么。

Chris:我非常天真的理解是它让铜线工作得更好?

@bubbleboi:那是真的,但那只是故事的一小部分。他们制造模拟放大器和模拟均衡器。美妙之处在于,这可以用于有源铜缆,可以用于PCB,可以用于线性可插拔光学器件,可以用于传统收发器,可以用于Arista XPO的东西,可以用于近封装光学器件。这他妈的是 所有。不仅仅是铜,是 所有。太棒了。而且他们拥有最高质量的部件。基本上是他们和MACOM之间的双头垄断。Semtech的部件就是更好。我看过数据表。我用过这些东西。所以很多金融人士,他们和一些业务人员做专家电话会议,哦,是的,我们有两个供应商,等等。我说,兄弟,比例是多少?大概是90% Semtech,因为Semtech的部件好得多。所以,是的,Semtech还有很大的上涨空间。这他妈太棒了。它无处不在。不仅仅是铜。

Chris:在不同的细分领域,低、中、高,你认为HBM紧俏程度如何?

@bubbleboi:是的,高。

Chris:硅光、光学器件、CPO。

@bubbleboi:也很高。考虑到Tower的情况。

Chris:Tower发生了什么?

@bubbleboi:人们提前为2027年、2028年的产能付钱给Tower。他们的股票涨了大概15%。那是几十亿美元的市值增长。他们被订光了。

Chris:你认为光学器件中哪个子集最重要?

@bubbleboi:磷化铟部分,激光器。

Chris:先进封装。

@bubbleboi:我不认为那会成为太大的问题,因为英特尔正在大量增加产能。我想英特尔在马来西亚有很多产能。

Chris:对EMIB的看法?

@bubbleboi:是的,EMIB很好。直观上你可以认为EMIB基本上和CoWoS-L是一样的。有一些技术细节,但从设计者的角度来看是一样的。18个月前EMIB的问题是英特尔在设计规则和客户服务方面有点愚蠢,非常糟糕。然后Lip-Bu Tan来了,解雇了一堆人,现在好了。现在人们正在把东西转移到EMIB,因为,第一,台积电没有足够的CoWoS产能,第二,台积电更愿意用他们的洁净室空间来生产60-70%毛利率的N3,而不是用来做CoWoS。所以我认为先进封装的情况,至少相对于其他东西,不会像人们想的那么糟。其他东西会更糟。

Chris:ABF基板。

@bubbleboi:我知道的不够多。

Chris:HBF。

@bubbleboi:我完全不喜欢高带宽闪存。我不认为这是一个好的解决方案,因为它会有耐久性问题。所以我就是不喜欢它。我甚至不想把它看作一个瓶颈。我只是觉得这是个坏主意。如果你要为此类应用使用闪存,那么你需要让它可插拔。如果它是可插拔的,你就不需要堆叠它。你可以把它放在CXL控制器周围,然后放在服务器的某个地方。

Chris:晶圆。

@bubbleboi:磷化铟晶圆,相当糟糕。碳化硅晶圆,不。普通晶圆也不,可能还好。

Chris:PCB。

@bubbleboi:很糟糕。支持200G SerDes的高速、最高质量的材料,是的,非常糟糕。 所有人 基本上都被订光了。

Chris:那里有偏好的投资标的吗?

@bubbleboi:我交易过TTMI,进进出出,但现在它涨太多了,我不想再碰了。所以,是的,我不知道该投资哪个。还有好多台湾的玩家我不关注。这是我不碰的领域之一。

Chris:电力和变压器。

@bubbleboi:感到兴奋,是的。瓶颈,不是。有很多闲置的晶圆厂产能。但是最兴奋,是的。

Chris:兴奋是因为它在技术上对你来说很有趣?

@bubbleboi:技术上很有趣,而且是下一个会爆发的东西。Lumentum的股票在财报后没涨的一个很大原因,它跌了然后又涨了,是因为Hurlston告诉 所有人,好吧,我们未来两年的东西都卖光了,这告诉金融人士,好吧,就 upside 而言不会变得更好了。Wolfspeed有潜力涨5倍。它可能会真的疯狂。然后所有常规的功率半导体公司,Infineon、TI、onsemi、STM,它们都能翻倍。它们能翻倍。这还没有被定价进去。其他的已经被定价了。这个还没有。

Chris:网络交换机。

@bubbleboi:还好。它只是与逻辑晶圆竞争,并且需要一些CoWoS,但不多。还好。

Chris:光纤。

@bubbleboi:目前不太好。有一些问题。我不认为它像其他东西那么糟,所以姑且说是中等吧。特别是保偏光纤。在某些情况下需要的一种更昂贵的类型。

Chris:液冷。

@bubbleboi:还好。我没听说有什么问题。

Chris:组装和测试相关的东西。

@bubbleboi:那可以增加产能。正在增加产能。增加产能不具挑战性。

Chris:CPU。

@bubbleboi:大问题。是的,大问题。英特尔可以在一定程度上增加产能。这就是为什么它的股价涨了这么多。AMD,他们在一定程度上增加了产能,因为他们正在使用他们旧的基于N5的CPU设计,并重新增加那个的产能。但现在他们这样做了,如果CPU情况恶化,他们该怎么办?

如果我是AMD,我想利用我的台积电分配,卖GPU还是CPU?你必须选择。ARM没有晶圆。高通。尽管我讨厌承认,唯一能帮助解决CPU困境的是高通,因为他们在台积电有很多晶圆。

但问题是,高通是唯一有晶圆产能并且可以将其转向CPU的大玩家,因为如果Android继续断崖式下跌,他们仍然在台积电有那些晶圆的订单。他们可以告诉台积电去印制CPU设计来代替。这就是为什么高通涨了这么多,因为人们抱有希望。高通在数据中心CPU上已经失败了三次。这是他们的第三次或第四次尝试。如果他们这次还搞不定,那真的就没希望了。它只需要能用。如果能用,人们会买它,他们会从中赚很多钱,这将拯救公司于Android崩溃和苹果即将到来的诉讼。

Chris:CPU你更看好谁?

@bubbleboi:我更喜欢英特尔做CPU,因为没有什么能让我买高通。但是基金的人问过我,哦,我应该买高通做CPU吗?好吧,如果你想相信这些笨蛋,你可以买。但我不会。但是当然,如果你想投,那就投吧。我承认他们有很多产能,我承认他们有很多产能,而且他们有可能做成。

Chris:DRAM也是高瓶颈?

@bubbleboi:是的,我基本上把DRAM和HBM视为等同。

Chris:硬盘?

@bubbleboi:没有看法。我猜既然NAND短缺,硬盘可能也变得更紧张了。我对此了解不够。

Chris:数据中心厂房?

@bubbleboi:我不跟踪那些东西。没有看法。

Chris:功率半导体对你来说会是高瓶颈吗?

@bubbleboi:不,现在是低。目前还不是瓶颈,但一年后会成为瓶颈。所以这就是它最有趣的地方,因为它有上涨空间。

Chris:NAND。

@bubbleboi:我认为DRAM享有溢价。NAND也和DRAM一样短缺,但我认为NAND更危险,因为它比DRAM更容易出现供应过剩。但,是的,高瓶颈,不过我要说我更偏好DRAM而不是NAND。

Chris:是否有任何模型变化,比如长上下文、更多强化学习、世界模型,你预计会极大地改变硬件需求?

@bubbleboi:我真诚地认为所有人都在朝着更长的上下文长度发展。这其中有经济价值。人们愿意为更长的上下文长度付费。所以这会伤害所有内存,所有。这只是大概的高层次观点。我不太关注模型架构。但从经济方面看,是的,人们想要超长的上下文长度或长序列的token。

Chris:如果你是老黄,你下一步会锁定什么供应?

@bubbleboi:他已经锁定了所有东西的供应。我正想说光纤,然后他就去搞定了Corning的交易。我认为此人如神,他已经锁定了所有。我想他确实做到了。

Chris:哪一家公司你会推荐给你的父母,作为持有10年的投资?

@bubbleboi:英特尔,因为英特尔是一个疯狂的长期持有标的。还有博通、是德科技。SiTime,但也许不是在这个价位。英伟达,显然。台积电。这些都是长期的,可以闭眼买。

Chris:博通,我猜想他们所有的客户都积极希望摆脱对他们的依赖,还是这不是问题?

@bubbleboi:谷歌正在尝试。我告诉你,进展并不顺利。除了Lumentum,另一个磷化铟的大玩家实际上是博通。没多少人知道这个。博通有一个巨大的激光器部门。非常多元化的公司。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章