2025 年 3 月 1 日,DeepSeek公布的最新模型的理论API服务利润率有545%,但与此同时,很多第三方云服务商却要停止deepseek API服务了,为什么?既然利润率这么高,为什么还要停API服务?
我尝试来深度分析一下,这两个矛盾现象的背后原因。
2025 年 3 月 1 日,DeepSeek 面向开源社区公布了其最新的 V3/R1 推理系统的设计与实现细节,包括大规模跨节点专家并行(EP)技术、计算与通信重叠策略、负载均衡机制,以及与之对应的在线推理数据(吞吐量、时延、成本、收益等)。
V3/R1 推理系统的主要技术亮点是专家并行(Expert Parallelism, EP)与高稀疏 MoE 模型:
-
专家并行:DeepSeek 模型使用了混合专家(MoE)结构,每层 256 个专家仅激活 8 个,这就带来了极高的稀疏性。要想让“被激活”的专家单元始终拥有足够的批处理量,需要跨多节点进行调度与分配。
-
扩展大批处理:通过专家并行与数据并行结合,可以在不同节点/GPU 间分配专家模块,显著扩大批处理规模,从而提升吞吐量并降低延迟。
预填充-解码解耦(prefill-decode disaggregation)
-
预填充阶段:「路由专家 EP32,MLA/共享专家 DP32」:每个部署单元跨越 4 个节点,配置 32 个路由专家冗余;每块 GPU 处理 9 个路由专家 + 1 个共享专家。
-
解码阶段:「路由专家 EP144,MLA/共享专家 DP144」:每个部署单元跨越 18 个节点,配置 32 个路由专家冗余;每块 GPU 管理 2 个路由专家 + 1 个共享专家。
通过在不同阶段采用不同并行策略,提高了对推理过程(尤其是长序列推理)在吞吐量、延迟上的优化效率。
计算-通信重叠(Dual-batch Overlap):
大规模跨节点通信是 EP 的一大挑战。DeepSeek 通过 dual-batch (双 microbatch)流水线策略,让一个 microbatch 在执行计算时,另一个 microbatch 同步进行通信,从而相互“掩盖”通信开销。解码阶段更进一步细分注意力层为两个步骤,采用五阶段流水线 (5-stage pipeline) 技术,将更多通信和计算重叠执行,从而减少等待时间。
负载均衡策略:
-
预填充阶段负载平衡器:尽量均衡各数据并行实例间输入序列长度、请求数量所带来的计算/分发不均衡。
-
解码阶段负载平衡器:均衡 KVCache 使用量,平衡核心注意力计算负载。
-
专家并行负载平衡器:在混合专家模型中,天然会出现“热门专家”被频繁访问而负载更高的现象。通过动态调度策略,让不同专家在不同 GPU 间更均衡地分配,避免某个节点/专家卡成为系统瓶颈。
1. deepseek API 服务利润利润率达到惊人的545%?
DeepSeek 在线API 服务数据
硬件配置:H800 GPU 集群(1 个节点 = 8 张 H800 GPU)。在本次统计区间内,峰值占用达 278 个节点,平均占用 226.75 个节点。精度设置:矩阵乘法与分发传输使用 FP8,核心 MLA 计算及组合传输使用 BF16,保证高效推理与高精度兼得。
24 小时内的吞吐量与开销
-
统计区间:2 月 27 日中午 12:00 至 2 月 28 日中午 12:00
-
总输入 token:6080 亿,其中 3420 亿(约 56.3%)命中磁盘 KV 缓存,不需要完整推理计算。
-
总输出 token:1680 亿,平均输出速度 20~22 token/s,每个 token 对应平均约 4,989 个 KV 缓存长度。
-
单节点吞吐量:
预填充阶段:每秒约 7.37 万个输入 token(含缓存命中)
解码阶段:每秒约 1.48 万个输出 token
成本与收益
成本估计:假设租用一张 H800 GPU 价格 2 美元/小时,则一天运行费用约 87,072 美元。
理论收入(使用Python模拟):若所有请求都按 R1 定价计费(输入 token 0.14~0.55 美元/百万,输出 token 2.19 美元/百万),24 小时产生 562,027 美元收入,利润率高达 545%。
实际营收:由于 DeepSeek-V3 的计费低于 R1、网页/APP 免费、夜间折扣等原因,真实收入应低于理论值。
很多读者感慨“技术才是第一生产力”,在高效率、高吞吐量的推理架构之下,可以创造出让人惊叹的利润空间。也有网友提出,如果真的要做到免费,势必需要在夜间或者闲置资源时段进行灵活调度。对企业来说,盈利模式可能不只依赖于 token 收费,也可能通过定制化服务、企业级解决方案、API 授权等方式实现。
一些人也好奇,“输入比输出高这么多倍,是因为请求庞大还是响应不充分?” 根据文章给出的数据,主要还是用户请求量(输入)非常庞大,再加上大量的 KV 缓存命中,导致输入 token 总量远大于输出。
看起来这是一个非常可观的理论利润率(545%),真的有这么高吗?
从目前公开的信息来看,DeepSeek 在计算 GPU 成本时,主要采用了“每小时 2 美元”的「租赁成本」假设,并没有细化硬件折旧或整体运维摊销(包括工程师薪资、电力冷却、机房租金、网络带宽等)等因素。因此,文中给出的 545% 利润率更多体现了“理想化、基于 GPU 即时租用价格的利润测算”,并非企业全面财务核算之后的真实净利润率。
DeepSeek 给出的成本基于「按小时付费」的租赁价(2 美元/小时·卡)来估算。如果他们确实使用云服务(或第三方 GPU 机房)进行租赁,那么云服务商的定价中多少已经隐含了“硬件折旧 + 运维 + 利润”。
在这种情况下,折旧本身已经转化为云服务商的成本,对 DeepSeek 而言,确实只需要关心「租赁费用」即可。如果 DeepSeek 自行采购 GPU 并自行运维,就还要额外计算硬件折旧摊销、维护等隐藏成本;这部分在文中并未详细体现。
除了 GPU 硬件本身的折旧或租赁费用,企业真实运营往往还包含人力成本、机房租金、配套服务器(存储、带宽)以及其他运营支出。这些也同样会影响最终净利润率。DeepSeek 给出的数据更像是“推理集群的直接成本”估算(也可以理解为“云平台直接账单”),而非企业层面完整的会计核算。
理想化利润率为何可能很高?
DeepSeek 使用了高稀疏度 MoE(混合专家)模型和跨节点专家并行(EP)技术,让单位 GPU 服务更多请求,从而单卡产出远高于一般大模型推理部署。当某个系统在极高负载、且平均时段内大部分资源都被充分利用时(例如服务的平均并发量非常大),单位成本就被摊得很低。
输入 token 相比输出 token 价格低很多,但实际请求中有大比例命中了缓存,减少了实际计算负载;输出 token 价格比输入高不少,一旦产生大量输出(用户请求长回答),就能带来显著收入。在这种高并发 + 部分缓存命中 + 长文本输出的场景下,理论收益容易被放大。
从文中 545% 的数字看,更像是运营推理服务所获得的“毛利率”(基于云 GPU 租金 vs. token 收益),而非企业全局的纯利率。很多公司在仅计算“硬件云成本”时,毛利水平可高达几百到上千个百分点,但一旦把研发投入、人力、办公等再加进去,真实“净利润率”自然会下降。
DeepSeek 给出的 545% 利润率,应该是不包含硬件折旧(若自建机房则需要自行折旧计算),也没有全面覆盖其他各项运营成本(人力、带宽、冷却等)。这一数值主要反映在“以 GPU 即时租赁成本”对照“按 R1 计费方式的理想收入”,是一个理想化的推理业务端“毛利率”。
对于 AI 服务商,最终能否实现高利润,还取决于市场竞争、定价策略、用户规模、资源利用率以及内部研发/运营费用等多重因素。综上,545% 的数字虽然引人注目,但更多是技术与规模效应下的一种上限测算,并不代表实际财务报表中可直接落袋的净利润率。
2. 理论与现实存在巨大差距,第三方API服务商压力巨大
还跟哪些因素相关?如果真实的利润率这么高,很多第三方云服务商不至于还要停服吧?
近期潞晨科技CEO尤洋指出,满血版DeepSeek-R1每百万token(输出)定价16元,如果每日输出1000亿token,一个月算下来接入方企业可获得4800万元收入。
据他测算,完成1000亿token的输出,需要约4000台搭载H800的机器,以目前H800的市价或者折旧来计算,每月仅机器成本就达4.5亿元,因此企业方可能面临每月4亿元的亏损,“用户越多,服务成本越高,亏损越多”。
云服务商突然停服 DeepSeek API,并不违背“DeepSeek 理论利润率很高”这一事实:理想收益与真实运营成本之间,依旧存在不小的鸿沟。
DeepSeek 公布的 545% 利润率,是基于以下理想化假设计算所得:
-
仅将 GPU 小时租赁成本(2 美元/小时·卡)视为“唯一”成本;
-
所有流量都按 R1 标准定价收取(无折扣、无免费额度、无其他低价方案)。
然而,在真实的商业运营中,情况往往复杂得多:
-
机器并不总是「满负载」。如果吞吐不饱和,就难以充分摊薄每张卡的成本;
-
不同客户或场景可能享受免费或折扣。DeepSeek 自己也承认实际收入“远低于理论值”;
-
研发、运维、人员、带宽、电力、数据存储与分发等费用也不可忽视,单纯用“2 美元/小时·卡”无法覆盖所有支出;
-
如果云服务商自行采购 GPU 并长期持有,也得计算硬件折旧、资本开支(CapEx)、融资成本等因素。
理论利润高并不代表所有参与方都能拿到这样的高收益。一旦任何成本高于理论设定、或实际收费无法接近理论值,都可能让利润率迅速下降,甚至出现亏损。
商业模式与风险承担不对等,对于许多云服务提供商而言:
①云厂商承担了更多的底层成本和运维风险
要提供 API 服务,云厂商要先搭建或租用大规模 GPU 集群,一旦客户请求爆发式增长,云厂商就必须扩容,而成本大概率比“2 美元/小时·卡”更高(实际采购或运营成本要远大于此);如果用户行为存在不确定性,云厂商在闲时则会有大量资源闲置,也在背负固定成本;
②定价策略由 DeepSeek 设定,云厂商只是“执行者”
假设 DeepSeek 对最终用户实施低价或免费策略,那么云厂商所得的分成或代理费用就会非常有限;如果出现高并发、高负载且大部分是免费用户,云厂商在资源层面却要付出真金白银,无法覆盖成本。
云厂商真实利润率不一定等同于 DeepSeek 官方披露的理想值
DeepSeek 的 545% 理论毛利率只是站在“以极优成本+高负载+R1 价”来衡量“推理服务”时所做的简化对比;对云厂商而言,实际成本结构中包含其他不可回避的项目(人力运维、能耗、专线网络……),且深度合作的分成模式也未必有如此高收益。
云服务商在运营 DeepSeek API 过程中,承担了底层运营风险和不对称的收入结构,一旦发现继续提供服务难以盈利,或收益预期极不稳定,停服也就不难理解。
DeepSeek 公开的“每卡 2 美元/小时”是租用成本的一种「理想化假设」,或在某些海外云平台上存在限时优惠。但在国内外市场实际采购或长期自营 GPU 时,可能面临:
-
巨额资本支出 (CapEx):一台服务器可能搭载 8 张 H800(或 8× A100/A800…),购买成本往往在数十万元到上百万元不等。4000 台就可能是数十亿的初始投入。
-
折旧与维护:即便通过折旧摊销,综合月度成本也远高于“2 美元/小时 × 24 小时 × 30 天”所得到的数值。企业需要支付机房租金、电力空调、网络专线、人力运维等一系列额外花费。
-
峰谷不均衡:如果用户峰值负载只有 1~2 小时很高,其他时间段低迷,就会有很多 GPU 处于空转状态。但硬件折旧和机房运维费却是“无时不刻”地在发生。
所以,对于大多数企业来说,若想自建或长期租用大规模 GPU 集群提供“无限量”高质量推理服务,实际成本常常高得惊人,远不止 DeepSeek 理论模型中“2 美元/小时·卡”能覆盖。
潞晨科技 CEO 尤洋给出的测算,实际上直指了“大模型商用落地在算力层面的沉重成本”。当前看似“高收益、高利润率”的大模型推理服务,在真正面对海量用户时,硬件及运维成本会迅速放大。
仅靠“输出 token × 单价 = 收入”来覆盖成百上千台 GPU 的折旧、运维、能耗和研发投入,往往是不足的。当服务规模越大,所需 GPU 越多、支出曲线就可能呈指数级上升,而“用户付费意愿”或“单价”却难以跟上这样的成本增幅,于是出现“用户越多,亏损越大”的悖论。
“理论利润率 545%”本就带有极强的理想化前提;真正落地时,大规模并发+免费用户比例+贴近成本的资源价格等诸多现实因素,往往让云服务商无法复制或接近此理论利润率。
当云厂商评估发现:实际盈利前景有限,甚至处于亏损边缘,或对后续合作条款缺乏确定性,就可能果断停止 DeepSeek API 的对外服务。
因此,云服务商突然停服 DeepSeek API,并不违背“DeepSeek 理论利润率很高”这一事实:理想收益与真实运营成本之间,依旧存在不小的鸿沟。
3. 实际利润率还与更多因素相关
从数学模型的角度来抽象一下,可能理解会更加深刻:
针对DeepSeek-V3/R1推理系统的成本、收入与利润率问题,我们可通过建立数学模型进行定量分析,以下是基于公开数据的深度建模与推演:
一、成本模型(Cost Model)
1. 显性成本(Explicit Cost)
2. 隐性成本(Implicit Cost)
二、收入模型(Revenue Model)
1. 输入输出Token拆分
设每日总Token处理量为:
2. 分层定价与缓存影响
3. 吞吐量约束
三、利润率模型(Profitability Model)
1. 理论利润率(理想条件)
2. 实际利润率(含隐性成本与负载率)
四、敏感性分析(Sensitivity Analysis)
通过蒙特卡洛模拟或偏导数分析关键变量对利润率的边际影响:
1. 缓存命中率 β
2. 负载率γ
3. 定价策略
五、风险量化模型(Risk Quantification)
1. 盈亏平衡分析
2. 波动率影响
从抽象的数学模型来看,数学模拟带来的启示在于:DeepSeek API 服务商的商业模式高度依赖规模效应与技术护城河,需通过持续优化β、γ 、α 三变量来抵御市场波动。
DeepSeek 公布的 545% 利润率,依赖多项“理想化假设”:满负荷、无隐性成本或隐性成本极低、无限需求且全按高价收费。实际运营中,这些条件往往难以完全满足,导致真实利润率大打折扣。
关键点:提升缓存命中与利用率
①缓存命中率 (β):直接影响输入部分的计费与计算负载;
②负载率 (γ):是决定资源利用效率的核心,企业若想保持利润,就需要弹性调度、批量并行、峰谷错配等运营手段,将 GPU 利用率尽量提升。
关键护城河在于:第一,维持高缓存命中率(需用户行为可预测);第二,技术优化压缩隐性成本(如电力效率提升)。
从缓存命中率和隐性成本优化的角度,垂直类企业SaaS服务公司确实可能比通用型AI服务商更有优势,垂直SaaS的缓存命中率优势:用户行为可预测性
① 场景收敛与需求模式固化
垂直领域特征:用户行为受行业规则限制(如医疗SaaS的ICD-10编码查询、零售SaaS的库存SKU检索),请求类型高度集中,长尾需求少。
缓存策略优化:可预置高频查询结果(如药品数据库、行业法规文本),甚至通过预训练领域知识图谱实现近100%缓存命中。
② 数据闭环增强可预测性
-
用户画像沉淀:垂直SaaS积累客户历史行为数据(如物流公司的运单查询周期、制造业的设备故障排查规律),可训练预测模型提前缓存相关结果。
-
主动缓存(Proactive Caching):结合业务流程(如ERP系统中的月度财报生成),在需求波峰前预加载资源。
-
所以,SaaS企业+云巨头的API服务似乎能碰撞最大的火花。云巨头与垂直SaaS的协同,绝非简单的资源外包+行业经验叠加,而是通过数据流重构、算力-知识双向反馈、联合收益模型实现深度耦合。这种模式将重塑AI服务的成本结构——边际成本趋近于缓存维护而非原始计算,最终催生新一代“智能即服务”(Intelligence-as-a-Service)生态。胜负手在于:谁能更快构建跨域的缓存语义网络,并设计出激励相容的商业模式。
对 AI 从业者的有哪些重要启示?
技术层面:如何实现更高效的大模型推理?
-
提高批处理规模(GPU 矩阵运算效率更高);
-
减少单卡专家负载(延迟更低);
-
重叠通信和计算(流水线/双 microbatch);
-
负载均衡避免单点瓶颈。
-
跨节点专家并行 (EP) + Data Parallel (DP) + Pipeline的组合拳:
-
这些经验可以为大规模模型在工业生产环境中的落地提供重要参考。
商业层面:分时调度 + 差异化定价
-
白天高峰时段部署更多节点,夜间缩减集群规模;
-
对不同类型的请求(缓存命中/未命中、输入/输出 token)实施不同价格;
-
通过缓存命中率降低系统负载,却仍可收取一定费用;
-
形成高效率+较合理价格的商业模式,同时保留免费策略吸引更多用户。
要真正落地并保持可观利润,还需考虑市场竞争、产品定位(免费策略 vs. 付费服务)、运营成本、研发投入等;如果能够像 DeepSeek 这样高效利用资源、在峰谷时段灵活调度,并拥有庞大用户量支撑,就可以在实际中获得较高的盈利水平。
本文来源:贝叶斯之美,原文标题:《DeepSeek API理论利润率有545%,为什么还有云服务商停止服务了?》