SemiAnalysis:下游大模型公司已经爆赚,英伟达、台积电还能赚更多

SemiAnalysis指出,Anthropic年化收入已飙升至逾440亿美元,推理毛利率超过70%,下游大模型公司率先“爆赚”。但上游的利润空间远未触及天花板:英伟达定价框架若从成本导向转向价值导向,系统定价具备40%以上上调空间;台积电N3制程同样处于价值重分配核心。供需结构性错配,正在为上游打开新的定价窗口。

AI价值链正在经历结构性重估。过去赚走大部分利润的芯片制造商正面临下游模型厂商的快速追赶,但上游的利润空间远未触及天花板。

SemiAnalysis分析指出,Anthropic年化收入在数月内从90亿美元升至逾440亿美元,推理毛利率从38%增至70%以上。英伟达目前的定价框架仍以成本为导向,尚未反映推理工作负载经济学的变化。一旦框架调整,英伟达系统定价具备40%以上的上调空间。台积电N3制程产能同样处于价值重分配的核心位置。

支撑此判断的关键在于供需两端的结构性错配:N3制程预计2026年下半年利用率将超过100%,DRAM工厂已逾90%满负荷运行,而前沿模型的Token需求仍在以复合速度扩张。这一背景下,英伟达通过SOCAMM内存模块实现差异化定价的窗口已经打开。

AI价值洼地转移:基础设施层让位于模型层

从2023年至2025年初,AI价值链中的绝大部分利润积聚于基础设施层。英伟达率先爆发,随后电力资产Vistra与GE Vernova分别在2024年上涨265%和146%,存储厂商SanDisk、Western Digital、Seagate和Micron在2025年均实现逾200%涨幅。

这一格局的背面,是模型创建者与推理服务商长期承受的低毛利困境。彼时AI的实际使用价值有限,市场对AI投资回报的质疑声不断。

转折点出现在2025年12月。随着Agentic AI(智能体AI)真正走向实用,AI的经济逻辑被彻底改写。SemiAnalysis披露,其自身年化Token消耗支出已接近员工薪酬的30%,每名员工每月消耗Token量接近50亿个,是Meta内部人均用量的5倍以上。大量原本需要初级分析师数小时完成的工作——包括财务建模、数据可视化、盈利分析——如今只需数美元的Token支出即可完成。

SemiAnalysis估算,其团队在Anthropic Claude上的年化支出峰值已达1095万美元,而由此带来的竞争优势远超这一成本。Anthropic随即受益:ARR从90亿美元飙升至440亿美元以上,推理毛利率从38%升至超过70%。

Token成本骤降,模型厂商利润率扩张具有持续性

驱动模型厂商毛利率跃升的另一核心因素,是Token生产成本的大幅下降。

从硬件维度看,在8K输入、1K输出的标准推理任务上,经过完整软件优化(含宽EP、计算与预取分离、多令牌预测)的B300系统每秒每GPU可产生约14000个Token,而未优化版本仅约1000个——同款硬件上,软件优化单独贡献了14倍的吞吐量提升。若进一步叠加硬件升级,最优配置的GB300 NVL72相比H100的FP8吞吐量提升约17倍,切换至H100原生不支持的FP4精度后,差距扩大至32倍,而GB300每GPU总拥有成本仅高出约70%。

从定价结构看,Agentic工作负载具有极高的输入输出比(Claude Code使用场景约为300:1)与极高的缓存命中率(90%以上),使得绝大多数Token落入最低计费档。SemiAnalysis估算,Opus 4.7在智能体任务上的真实混合成本约为每百万Token0.99美元,远低于标价的每百万输入Token5美元。

即便面对Anthropic对Opus系列的大幅降价——Opus 4.5的定价较此前降低三分之二——SemiAnalysis认为Anthropic的单位毛利实际上有所提升:一方面,生产成本随硬件升级进一步下降;另一方面,用户大规模从Sonnet切换至Opus,推高了混合ASP。

更具战略意义的是,Anthropic在高端产品线上仍拥有定价主导权。Opus Fast定价为常规Opus的6倍,而已宣布的Mythos定价为每百万Token25美元/125美元,是常规Opus的5倍。SemiAnalysis明确表示,若Anthropic愿意开放每百万Token150美元/750美元的Mythos Fast,其团队仍会购买——因为生产力提升的价值远超成本。

模型厂商的定价权为何难以被竞争侵蚀

对于前沿模型高利润率是否可持续,最常见的质疑来自竞争压力。SemiAnalysis给出了两个反驳理由。

其一,前沿闭源模型与开源模型之间的能力差距依然显著,且短期内难以弥合。以Kimi K2.6(每百万Token0.95美元/4美元)为代表的低价开源模型对Opus定价几乎不构成实质性压制。

其二,算力约束意味着任何一家前沿实验室都无法独自服务整个市场。Anthropic已通过将Claude Code锁定在100美元以上月订阅门槛、限制第三方接入等方式主动管理需求侧。Token需求在可预见的未来将持续超出供给,这意味着有能力提供真正前沿质量的实验室,可以按照Token所创造的经济价值而非竞争性成本来制定价格。

英伟达的定价克制:监管逻辑还是战略误判

面对AI价值链的深刻重构,英伟达迄今未对其定价框架作出实质性调整,这是一个值得关注的结构性问题。

英伟达目前的定价仍主要以成本为锚,反映的是需求价值随时间递减的旧范式——而这一假设已不再成立。当前需求增长并非线性,而是以复合速度扩张,由智能体工作负载爆发与每个工作流程Token消耗量的持续跃升共同驱动。

SemiAnalysis认为,英伟达保持定价克制,部分原因在于监管层面的顾虑。英伟达在GPU、互联与软件栈上的主导地位已引发日益密切的反垄断关注。在下游AI实验室同样大幅盈利的背景下,激进提价可能加剧监管风险,也可能加速客户向TPU、Trainium等替代平台分散。

在此意义上,英伟达的行为模式与台积电颇为相似。台积电长期以来即便在满负荷运营、扮演先进制程供应瓶颈的情况下,也未将定价提升至稀缺溢价的极限,而是优先维护生态系统长期稳定与客户关系。这一逻辑可概括为"AI央行"——通过适度让利支撑下游生态扩张,而非最大化短期利润提取,以确保自身在AI时代的长期主导地位。

然而,这一策略存在真实的机会成本。在算力需求持续超过供给的结构性背景下,掌握稀缺资源却未充分定价,相当于将价值拱手相让给生态链中游和下游。台积电在N3制程上同样如此——SemiAnalysis直接指出这是"战略失误",至少应要求更大规模的预付款安排。

Rubin定价空间:SOCAMM成为利润新杠杆

英伟达即将推出的Vera Rubin VR NVL72系统,提供了一个重新评估定价框架的契机。

从成本角度看,据测算,VR NVL72实现与GB300 NVL72相同的15.6%项目IRR(5年期,15%预付款)所需的最低GPU租金约为每小时4.92美元。从价值角度看,若以FP8密集算力维度锚定当前GB300每PFLOP租金约0.70美元,VR NVL72对应的理论最高定价约为每GPU每小时12.25美元,是成本地板价的约2.5倍。

这一巨大价差表明,英伟达在VR NVL72定价上拥有充足的上调空间。SemiAnalysis估算,若英伟达将系统定价提升约40%,仍可为Neocloud保留足够的利润空间——即便Neocloud将租金提价至每小时8美元以上,对应每PFLOP成本仍低于历史趋势线。

在具体机制上,SOCAMM成为最关键的定价杠杆。不同于GB300将LPDDR5X内存直接焊接于主板、嵌入整体系统定价,VR NVL72采用可插拔的SOCAMM模块,允许英伟达将内存作为独立计费项目单独列示和定价。

SOCAMM(Small Outline Compression Attached Memory Module,小型化压缩附加内存模组)是英伟达主导、联合三星、SK海力士和美光等内存厂商开发的新型模块化内存标准,基于LPDDR5X(或未来LPDDR6)DRAM技术,面向AI服务器与个人AI超级计算机场景。

模型显示,英伟达在2026年第一季度支付的SOCAMM合同价格约为每GB 8美元,较上季度大幅提升,主要反映LPDDR5X供应紧张与整体DRAM价格上行。基于对2026年底移动DRAM定价的预测,2026年底SOCAMM定价或超过每GB 13美元,全年均值约10美元为合理假设。

在此基础上,SemiAnalysis认为英伟达在SOCAMM上收取60%毛利率具有合理性:一是内存供应全面紧张,英伟达在SOCAMM采购上具有优先获取权;二是VR NVL72在性能/TCO维度远超同期竞品,客户缺乏可替代选项;三是英伟达本身已面临SOCAMM采购成本的大幅上涨,向下游传导具有合理依据。

此外,内存定价不像GPU定价那样面临反垄断顾虑,这给了英伟达更大的差异化定价空间——包括对Neocloud与超大规模云厂商实施差别定价。目前,英伟达在网络设备上已对Neocloud收取约为超大规模云厂商两倍的价格,同样的逻辑完全可以延伸至内存层面。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章