价格打到美国的五分之一,利润率却不输对手——中国AI模型的成本优势,正在逼近一个让华尔街不得不重新定价的临界点。
当企业开始因为token账单失控而踩刹车,当微软据报正在评估用DeepSeek替换Copilot中更贵的OpenAI和Anthropic模型,一个过去被市场长期忽视的问题正在浮出水面:中国AI模型的低价,究竟是补贴撑出来的虚火,还是真实的结构性优势?
瑞银半导体团队近期发布了一份深度研究,分析师Sundeep Gantori对中国主要AI模型的训练与推理成本进行了系统性拆解。测算显示,以MiniMax和智谱为例,中国模型的训练成本不到OpenAI和Anthropic的10%;API均价低于美国同类产品的20%;但毛利率——这个最能说明"是否在亏本卖"的指标——却与美国同行基本持平,约在20%-40%之间。
这意味着中国模型的低价,不是靠烧钱换来的,而是结构性成本优势的体现。

价格差距从何而来:三层成本拆解
理解这个价格差距,需要从训练、推理、基础设施三个层面分别来看。
训练阶段,中国模型的参数规模普遍小于美国对手。DeepSeek V4的总参数量为1.6万亿,Kimi K2.6约为1万亿,而学术论文估算Claude Opus 4.6和GPT-5.5的参数规模分别约为10万亿和5万亿。参数少,训练计算量自然低。
但参数规模只是第一步。更关键的差异在于稀疏注意力机制的应用。传统Transformer模型中,每个token需要与序列中所有其他token交互,计算量随上下文长度呈平方级增长。稀疏注意力通过让每个token只与部分相关token交互,大幅压缩了长上下文训练和推理的计算消耗。DeepSeek V3.2采用了自研的稀疏注意力设计(DSA),V4进一步在此基础上加入上下文压缩。
在计算精度上,中国模型也走在了前面。以Nvidia B200为例,从BF16/FP16切换到FP8,理论吞吐量可以翻倍。DeepSeek-V3率先引入FP8混合精度训练框架,V4更进一步采用了FP4量化感知训练;百度ERNIE 4.5/5.0、阿里Qwen3.5均已跟进。

基础设施层面,中国的电力成本具有实质性优势。美国主要数据中心州(伊利诺伊、佐治亚)的平均电价约为7.9美分/度,而中国可比地区约为4.4美分/度,低约44%。反映到GPU租用价格上,美国市场Nvidia H100的租用成本约为1.99-3.99美元/GPU小时,中国约为1.3-2.1美元/GPU小时,低约40%。
这三层叠加下来,中国模型的成本结构系统性低于美国同行,价格优势因此具有可持续性。
推理端:更激进的技术路径
如果说训练端的成本优势主要来自资源约束下的"被迫创新",推理端的优化则更像是主动为之。
中国模型在推理阶段普遍采用混合专家架构(MoE),并且比美国同行走得更远。MoE的核心逻辑是:模型不需要为每个token激活全部参数,而是只激活其中一个子集("专家")。早期美国MoE模型如GPT-4、Llama 4 Scout通常激活约15-30%的总参数,而中国领先MoE模型通常只激活约3-10%。DeepSeek从V3.2到V4 Pro,活跃参数比从约5%降至约3%,但模型智能指数(AA Intelligence Index)反而从42升至52。
KV缓存压缩是另一个关键杠杆。在多轮对话类的智能体任务中,缓存输入成本约占总推理成本的70%。DeepSeek V4引入了重度压缩注意力(HCA)和压缩稀疏注意力(CSA)技术,使V4在相同上下文长度(100万token)下只需要V3.2约10%的KV缓存——这直接使DeepSeek V4 Pro的综合成本比V3下降约10%,尽管性能有了显著提升。
在服务编排层面,P/D分离(预填充与解码分离)将推理过程中计算密集型和内存密集型两个阶段拆分到不同GPU池,避免相互干扰;持续批处理则让GPU在请求完成后立即接入新请求,而非等待最慢的那个,显著提升吞吐率。MiniMax通过其端到端基础设施团队,实现了超过75%的MFU(模型算力利用率),高于行业平均水平的40-50%。
这些技术的叠加,使得推理成本持续压缩,而毛利率仍能维持在合理水平。MiniMax M2.7的毛利率超过40%,与Anthropic 2025年约40%的API毛利率基本一致。

性能差距正在快速收窄
成本优势要真正形成市场威胁,需要配合足够的能力。这正是当前局面的关键变量。
根据Artificial Analysis的数据,2023年中国前沿模型的综合智能约为美国顶尖模型的60%;到2025年,这一比例已上升至约90%。
分领域来看,差距并不均匀:
-
文本模型综合智能:已接近90%水平
-
AI编程:中国领先模型(如Qwen3.7-Max、DeepSeek V4-Pro)已可比肩美国上一代模型(如Claude Opus 4.6),但仍落后于最新前沿模型Claude Fable 5和GPT-5.5
-
多模态与视频生成:全球前五名视频生成模型中,有四个来自中国
研发投入的对比同样鲜明。智谱和MiniMax 2025年的R&D支出分别约为5亿和3亿美元,合计约为Anthropic R&D支出的十分之一,相对OpenAI则更低。

这种以极低研发投入实现快速追赶的路径,有两个支撑。其一是蒸馏技术,让小模型通过模仿强模型的输出来提升能力,缩短训练周期。但行业调研认为,蒸馏效果主要局限于结果可验证、流程可重复的任务,对需要复杂多步推理或底层架构支撑的能力提升效果有限。智谱在长程推理上的进展、MiniMax在多模态上的能力,均超出了蒸馏所能解释的范围。
其二是开源生态的集体杠杆效应。当一家实验室验证了某种架构或训练方法,其他实验室可以直接在此基础上迭代,而无需重复相同的大规模实验。Kimi K2和GLM-5采用了类似DeepSeek验证过的MLA潜在注意力设计;DeepSeek V4引入了Moonshot AI/Kimi的Muon优化器;Qwen3和智谱GLM-4.5均采用了DeepSeek验证的GRPO强化学习方案。这种"集体实验、分散受益"的模式,使整个中国AI生态的R&D边际成本系统性低于各自为战的美国闭源模型。

企业正在踩刹车,这对谁有利
成本压力已经从宏观讨论落地为具体的企业行为。
Uber在2026年4月就用完了全年AI预算,随后对员工个人AI工具的月度token消耗设置了1500美元上限。Walmart限制了内部AI智能体的token使用量。Amazon警告员工不要"为了用AI而用AI",并关闭了助长无效使用的内部AI-token排行榜。软件公司Workato在Anthropic从订阅制切换到按token计费的第一天,支出直接翻了7倍——首席信息官Carter Busse直言:"我们创造了一个怪物。"
OpenAI CEO山姆·奥特曼今年也公开承认,成本已成为客户面临的"巨大问题",而去年这个问题几乎不存在。
根据SiliconData的LLM Token支出指数(以支出/使用量加权的平均token价格),今年5月之前该指数持续攀升,近期已出现明显回落,可能反映企业正在从高端闭源模型转向更经济的替代品。咨询公司Entelligence对2444家企业的调查显示,企业AI编程支出中,只有18%最终转化为生产输出,其余82%被bug修复、代码重写和审查延误所消耗。
这种从"尽可能多用"到"每一分钱花得值"的转变,是中国模型最直接的市场机遇所在。当采购决策从"选最强的"变成"选够用且最便宜的",成本结构的差异就从技术话题变成了商业现实。
全球10万亿美元市场的切入逻辑
该行估算全球AI长期市场规模可能超过10万亿美元。逻辑链条并不复杂:全球GDP已超过110万亿美元,劳动收入占比约50-60%;若AI能替代或增强约20%的人类劳动与认知工作,可寻址市场即超过10万亿美元。
中国在这个市场上的位置,并非只能做价格战工具。从2019年到2025年,美国累计训练了223个大型AI系统,中国为192个,两者远超其他所有国家,约为排名第三的法国的10倍。在Artificial Analysis全球前20名模型榜单中,只有一个来自法国(Mistral),其余全部来自美国或中国公司。
对于中国模型的全球扩张路径,该行给出了三个场景:
成本主导场景(类比光伏):若中国模型最终在能力上与全球头部产品趋同,且token调用趋于同质化,竞争将主要由成本驱动。中国在光伏领域已建立超过80%的全球市占率。这是乐观上限。
性价比场景(类比电动车、智能手机、家电):中国模型在绝对智能上仍落后,但价格优势明显,在中高端以下的大量用量场景中获取30-50%的全球份额。这是瑞银的基准预期。
性能或生态主导场景(类比云计算和操作系统):若美国前沿模型保持明显能力领先,且AI深度嵌入企业工作流(通过AI智能体),竞争就会从单一模型定价转向生态系统建设。在这种情况下,用户数据和工作流积累形成壁垒,中国模型的全球份额可能维持在个位数低段到10%以下。
瑞银认为中间那条路——性价比场景——是更可能的基准,理由是需求将趋于分层:复杂、高价值任务仍会为顶尖模型支付溢价,而大量高频、ROI敏感的工作量将流向更便宜的替代品。
这一分层逻辑也在技术层面有支撑。随着模型能力向网络安全、自主工具使用等高风险领域延伸,头部模型可能面临越来越严格的访问限制。Anthropic的Claude Mythos Preview据报道已被限制在少数可信组织内使用,原因是其在网络安全领域展示出的能力(包括识别主流操作系统和浏览器漏洞)引发了滥用风险担忧。最强大的模型不一定对所有用户开放,这本身就会加速市场分层,并为成本更低的模型腾出空间。

地缘政治是这个逻辑链条中最大的不确定变量。美国政府已限制Claude Fable的海外访问,高盛交易台负责人Rich Privorotsky将此定性为AI竞争"可能已进入地缘政治管控阶段"的信号。但瑞银认为这一风险可被分散,因为除美国以外,欧洲、亚洲、中东等地区目前均缺乏本地头部基础模型,这为中国模型的全球扩张留下了可观的空间。
高盛:定价权争夺战,低成本AI是刺激需求还是摧毁溢价?
瑞银的判断与高盛One-Delta交易台负责人Rich Privorotsky近期的市场分析形成了呼应。
Privorotsky在报告中指出,AI板块正面临两股相互对立的力量:一方面是更广泛的应用普及与算力需求上升,另一方面是代币通缩加剧、货币化前景存疑以及股票供给持续扩大。他援引OpenRouter的实验结果称,由Gemini 3 Flash、Kimi K2.6和DeepSeek V4 Pro组成的模型组合,在基准测试中全面超越单独运行的GPT-5.5和Opus 4.8,并以约一半的成本将性能差距缩小至距Fable 5不足1%以内。
Privorotsky将这一趋势定性为"市场一直低估的方向"——AI智能竞赛的逻辑正在从"谁拥有最强的单一模型"转向"谁能最有效地编排多个模型",开源生态系统的权重随之上升。他将核心矛盾提炼为一个"价值万亿的问题":"更低的智能成本,究竟创造的需求多,还是摧毁的定价权多?"
看多逻辑在于:成本下降与访问门槛降低,最终应推动代币消耗量与算力需求同步扩张。看空逻辑则在于:这一趋势加速了代币通缩,并对现有模型经济学的可持续性构成根本性质疑——而他认为,后者正获得越来越多的市场关注。这一问题的答案,直接关系到当前AI板块数万亿美元市值的合理性,也将深刻影响中国模型全球扩张的最终边界。