成本仅为美国同类产品的两成！中国AI模型的低成本路径正在改写行业逻辑

06/22 12:01

瑞银研究显示，中国AI模型的API均价不到美国同类产品的20%，但毛利率却与Anthropic、OpenAI基本持平，约在20%-40%之间。这种“低价高利”背后是训练端的稀疏注意力、低精度计算、开源生态协同，以及推理端MoE、KV缓存压缩等系统性技术优势。同时，中国前沿模型综合智能已达美国顶尖水平的约90%。

价格打到美国的五分之一，利润率却不输对手——中国AI模型的成本优势，正在逼近一个让华尔街不得不重新定价的临界点。

当企业开始因为token账单失控而踩刹车，当微软据报正在评估用DeepSeek替换Copilot中更贵的OpenAI和Anthropic模型，一个过去被市场长期忽视的问题正在浮出水面：中国AI模型的低价，究竟是补贴撑出来的虚火，还是真实的结构性优势？

瑞银半导体团队近期发布了一份深度研究，分析师Sundeep Gantori对中国主要AI模型的训练与推理成本进行了系统性拆解。测算显示，以MiniMax和智谱为例，中国模型的训练成本不到OpenAI和Anthropic的10%；API均价低于美国同类产品的20%；但毛利率——这个最能说明"是否在亏本卖"的指标——却与美国同行基本持平，约在20%-40%之间。

这意味着中国模型的低价，不是靠烧钱换来的，而是结构性成本优势的体现。

价格差距从何而来：三层成本拆解

理解这个价格差距，需要从训练、推理、基础设施三个层面分别来看。

训练阶段，中国模型的参数规模普遍小于美国对手。DeepSeek V4的总参数量为1.6万亿，Kimi K2.6约为1万亿，而学术论文估算Claude Opus 4.6和GPT-5.5的参数规模分别约为10万亿和5万亿。参数少，训练计算量自然低。

但参数规模只是第一步。更关键的差异在于稀疏注意力机制的应用。传统Transformer模型中，每个token需要与序列中所有其他token交互，计算量随上下文长度呈平方级增长。稀疏注意力通过让每个token只与部分相关token交互，大幅压缩了长上下文训练和推理的计算消耗。DeepSeek V3.2采用了自研的稀疏注意力设计（DSA），V4进一步在此基础上加入上下文压缩。

在计算精度上，中国模型也走在了前面。以Nvidia B200为例，从BF16/FP16切换到FP8，理论吞吐量可以翻倍。DeepSeek-V3率先引入FP8混合精度训练框架，V4更进一步采用了FP4量化感知训练；百度ERNIE 4.5/5.0、阿里Qwen3.5均已跟进。

基础设施层面，中国的电力成本具有实质性优势。美国主要数据中心州（伊利诺伊、佐治亚）的平均电价约为7.9美分/度，而中国可比地区约为4.4美分/度，低约44%。反映到GPU租用价格上，美国市场Nvidia H100的租用成本约为1.99-3.99美元/GPU小时，中国约为1.3-2.1美元/GPU小时，低约40%。

这三层叠加下来，中国模型的成本结构系统性低于美国同行，价格优势因此具有可持续性。

推理端：更激进的技术路径

如果说训练端的成本优势主要来自资源约束下的"被迫创新"，推理端的优化则更像是主动为之。

中国模型在推理阶段普遍采用混合专家架构（MoE），并且比美国同行走得更远。MoE的核心逻辑是：模型不需要为每个token激活全部参数，而是只激活其中一个子集（"专家"）。早期美国MoE模型如GPT-4、Llama 4 Scout通常激活约15-30%的总参数，而中国领先MoE模型通常只激活约3-10%。DeepSeek从V3.2到V4 Pro，活跃参数比从约5%降至约3%，但模型智能指数（AA Intelligence Index）反而从42升至52。

KV缓存压缩是另一个关键杠杆。在多轮对话类的智能体任务中，缓存输入成本约占总推理成本的70%。DeepSeek V4引入了重度压缩注意力（HCA）和压缩稀疏注意力（CSA）技术，使V4在相同上下文长度（100万token）下只需要V3.2约10%的KV缓存——这直接使DeepSeek V4 Pro的综合成本比V3下降约10%，尽管性能有了显著提升。

在服务编排层面，P/D分离（预填充与解码分离）将推理过程中计算密集型和内存密集型两个阶段拆分到不同GPU池，避免相互干扰；持续批处理则让GPU在请求完成后立即接入新请求，而非等待最慢的那个，显著提升吞吐率。MiniMax通过其端到端基础设施团队，实现了超过75%的MFU（模型算力利用率），高于行业平均水平的40-50%。

这些技术的叠加，使得推理成本持续压缩，而毛利率仍能维持在合理水平。MiniMax M2.7的毛利率超过40%，与Anthropic 2025年约40%的API毛利率基本一致。

性能差距正在快速收窄

成本优势要真正形成市场威胁，需要配合足够的能力。这正是当前局面的关键变量。

根据Artificial Analysis的数据，2023年中国前沿模型的综合智能约为美国顶尖模型的60%；到2025年，这一比例已上升至约90%。

分领域来看，差距并不均匀：

文本模型综合智能：已接近90%水平
AI编程：中国领先模型（如Qwen3.7-Max、DeepSeek V4-Pro）已可比肩美国上一代模型（如Claude Opus 4.6），但仍落后于最新前沿模型Claude Fable 5和GPT-5.5
多模态与视频生成：全球前五名视频生成模型中，有四个来自中国

研发投入的对比同样鲜明。智谱和MiniMax 2025年的R&D支出分别约为5亿和3亿美元，合计约为Anthropic R&D支出的十分之一，相对OpenAI则更低。

这种以极低研发投入实现快速追赶的路径，有两个支撑。其一是蒸馏技术，让小模型通过模仿强模型的输出来提升能力，缩短训练周期。但行业调研认为，蒸馏效果主要局限于结果可验证、流程可重复的任务，对需要复杂多步推理或底层架构支撑的能力提升效果有限。智谱在长程推理上的进展、MiniMax在多模态上的能力，均超出了蒸馏所能解释的范围。

其二是开源生态的集体杠杆效应。当一家实验室验证了某种架构或训练方法，其他实验室可以直接在此基础上迭代，而无需重复相同的大规模实验。Kimi K2和GLM-5采用了类似DeepSeek验证过的MLA潜在注意力设计；DeepSeek V4引入了Moonshot AI/Kimi的Muon优化器；Qwen3和智谱GLM-4.5均采用了DeepSeek验证的GRPO强化学习方案。这种"集体实验、分散受益"的模式，使整个中国AI生态的R&D边际成本系统性低于各自为战的美国闭源模型。

企业正在踩刹车，这对谁有利

成本压力已经从宏观讨论落地为具体的企业行为。

Uber在2026年4月就用完了全年AI预算，随后对员工个人AI工具的月度token消耗设置了1500美元上限。Walmart限制了内部AI智能体的token使用量。Amazon警告员工不要"为了用AI而用AI"，并关闭了助长无效使用的内部AI-token排行榜。软件公司Workato在Anthropic从订阅制切换到按token计费的第一天，支出直接翻了7倍——首席信息官Carter Busse直言："我们创造了一个怪物。"

OpenAI CEO山姆·奥特曼今年也公开承认，成本已成为客户面临的"巨大问题"，而去年这个问题几乎不存在。

根据SiliconData的LLM Token支出指数（以支出/使用量加权的平均token价格），今年5月之前该指数持续攀升，近期已出现明显回落，可能反映企业正在从高端闭源模型转向更经济的替代品。咨询公司Entelligence对2444家企业的调查显示，企业AI编程支出中，只有18%最终转化为生产输出，其余82%被bug修复、代码重写和审查延误所消耗。

这种从"尽可能多用"到"每一分钱花得值"的转变，是中国模型最直接的市场机遇所在。当采购决策从"选最强的"变成"选够用且最便宜的"，成本结构的差异就从技术话题变成了商业现实。

全球10万亿美元市场的切入逻辑

该行估算全球AI长期市场规模可能超过10万亿美元。逻辑链条并不复杂：全球GDP已超过110万亿美元，劳动收入占比约50-60%；若AI能替代或增强约20%的人类劳动与认知工作，可寻址市场即超过10万亿美元。

中国在这个市场上的位置，并非只能做价格战工具。从2019年到2025年，美国累计训练了223个大型AI系统，中国为192个，两者远超其他所有国家，约为排名第三的法国的10倍。在Artificial Analysis全球前20名模型榜单中，只有一个来自法国（Mistral），其余全部来自美国或中国公司。

对于中国模型的全球扩张路径，该行给出了三个场景：

成本主导场景（类比光伏）：若中国模型最终在能力上与全球头部产品趋同，且token调用趋于同质化，竞争将主要由成本驱动。中国在光伏领域已建立超过80%的全球市占率。这是乐观上限。

性价比场景（类比电动车、智能手机、家电）：中国模型在绝对智能上仍落后，但价格优势明显，在中高端以下的大量用量场景中获取30-50%的全球份额。这是瑞银的基准预期。

性能或生态主导场景（类比云计算和操作系统）：若美国前沿模型保持明显能力领先，且AI深度嵌入企业工作流（通过AI智能体），竞争就会从单一模型定价转向生态系统建设。在这种情况下，用户数据和工作流积累形成壁垒，中国模型的全球份额可能维持在个位数低段到10%以下。

瑞银认为中间那条路——性价比场景——是更可能的基准，理由是需求将趋于分层：复杂、高价值任务仍会为顶尖模型支付溢价，而大量高频、ROI敏感的工作量将流向更便宜的替代品。

这一分层逻辑也在技术层面有支撑。随着模型能力向网络安全、自主工具使用等高风险领域延伸，头部模型可能面临越来越严格的访问限制。Anthropic的Claude Mythos Preview据报道已被限制在少数可信组织内使用，原因是其在网络安全领域展示出的能力（包括识别主流操作系统和浏览器漏洞）引发了滥用风险担忧。最强大的模型不一定对所有用户开放，这本身就会加速市场分层，并为成本更低的模型腾出空间。

地缘政治是这个逻辑链条中最大的不确定变量。美国政府已限制Claude Fable的海外访问，高盛交易台负责人Rich Privorotsky将此定性为AI竞争"可能已进入地缘政治管控阶段"的信号。但瑞银认为这一风险可被分散，因为除美国以外，欧洲、亚洲、中东等地区目前均缺乏本地头部基础模型，这为中国模型的全球扩张留下了可观的空间。

高盛：定价权争夺战，低成本AI是刺激需求还是摧毁溢价？

瑞银的判断与高盛One-Delta交易台负责人Rich Privorotsky近期的市场分析形成了呼应。

Privorotsky在报告中指出，AI板块正面临两股相互对立的力量：一方面是更广泛的应用普及与算力需求上升，另一方面是代币通缩加剧、货币化前景存疑以及股票供给持续扩大。他援引OpenRouter的实验结果称，由Gemini 3 Flash、Kimi K2.6和DeepSeek V4 Pro组成的模型组合，在基准测试中全面超越单独运行的GPT-5.5和Opus 4.8，并以约一半的成本将性能差距缩小至距Fable 5不足1%以内。

Privorotsky将这一趋势定性为"市场一直低估的方向"——AI智能竞赛的逻辑正在从"谁拥有最强的单一模型"转向"谁能最有效地编排多个模型"，开源生态系统的权重随之上升。他将核心矛盾提炼为一个"价值万亿的问题"："更低的智能成本，究竟创造的需求多，还是摧毁的定价权多？"

看多逻辑在于：成本下降与访问门槛降低，最终应推动代币消耗量与算力需求同步扩张。看空逻辑则在于：这一趋势加速了代币通缩，并对现有模型经济学的可持续性构成根本性质疑——而他认为，后者正获得越来越多的市场关注。这一问题的答案，直接关系到当前AI板块数万亿美元市值的合理性，也将深刻影响中国模型全球扩张的最终边界。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

成本仅为美国同类产品的两成！中国AI模型的低成本路径正在改写行业逻辑

价格差距从何而来：三层成本拆解

推理端：更激进的技术路径

性能差距正在快速收窄

企业正在踩刹车，这对谁有利

全球10万亿美元市场的切入逻辑

高盛：定价权争夺战，低成本AI是刺激需求还是摧毁溢价？

OpenAI突然杀疯！GPT 5.6系列价格最高暴降80%，AI竟开始自己改代码实现原地飞升

DeepSeek V4「满血版」曝光了！最快明天发布

高盛深度报告：谁将成为中国AI大模型行业的长期赢家？

7月AI大乱斗：国外GPT-5.6、Grok4.5、Gemini 3.5Pro轮流登场，国内DeepSeek V4正式版也来了！