DeepSeek API理论利润率有545%,为什么还有云服务商停止服务了?

贝叶斯之美
分析指出,一方面,云厂商承担了更多的底层成本和运维风险,另一方面,定价策略由 DeepSeek 设定,云厂商只是“执行者”,理想收益与真实运营成本之间,依旧存在不小的鸿沟。当云厂商评估发现实际盈利前景有限,甚至处于亏损边缘,或对后续合作条款缺乏确定性,就可能果断停服。

2025 年 3 月 1 日,DeepSeek公布的最新模型的理论API服务利润率有545%,但与此同时,很多第三方云服务商却要停止deepseek API服务了,为什么?既然利润率这么高,为什么还要停API服务?

我尝试来深度分析一下,这两个矛盾现象的背后原因。

2025 年 3 月 1 日,DeepSeek 面向开源社区公布了其最新的 V3/R1 推理系统的设计与实现细节,包括大规模跨节点专家并行(EP)技术、计算与通信重叠策略、负载均衡机制,以及与之对应的在线推理数据(吞吐量、时延、成本、收益等)。

V3/R1 推理系统的主要技术亮点是专家并行(Expert Parallelism, EP)与高稀疏 MoE 模型:

  • 专家并行:DeepSeek 模型使用了混合专家(MoE)结构,每层 256 个专家仅激活 8 个,这就带来了极高的稀疏性。要想让“被激活”的专家单元始终拥有足够的批处理量,需要跨多节点进行调度与分配。

  • 扩展大批处理:通过专家并行与数据并行结合,可以在不同节点/GPU 间分配专家模块,显著扩大批处理规模,从而提升吞吐量并降低延迟。

预填充-解码解耦(prefill-decode disaggregation)

  • 预填充阶段:「路由专家 EP32,MLA/共享专家 DP32」:每个部署单元跨越 4 个节点,配置 32 个路由专家冗余;每块 GPU 处理 9 个路由专家 + 1 个共享专家。

  • 解码阶段:「路由专家 EP144,MLA/共享专家 DP144」:每个部署单元跨越 18 个节点,配置 32 个路由专家冗余;每块 GPU 管理 2 个路由专家 + 1 个共享专家。

通过在不同阶段采用不同并行策略,提高了对推理过程(尤其是长序列推理)在吞吐量、延迟上的优化效率。

计算-通信重叠(Dual-batch Overlap):

大规模跨节点通信是 EP 的一大挑战。DeepSeek 通过 dual-batch (双 microbatch)流水线策略,让一个 microbatch 在执行计算时,另一个 microbatch 同步进行通信,从而相互“掩盖”通信开销。解码阶段更进一步细分注意力层为两个步骤,采用五阶段流水线 (5-stage pipeline) 技术,将更多通信和计算重叠执行,从而减少等待时间。

负载均衡策略:

  • 预填充阶段负载平衡器:尽量均衡各数据并行实例间输入序列长度、请求数量所带来的计算/分发不均衡。

  • 解码阶段负载平衡器:均衡 KVCache 使用量,平衡核心注意力计算负载。

  • 专家并行负载平衡器:在混合专家模型中,天然会出现“热门专家”被频繁访问而负载更高的现象。通过动态调度策略,让不同专家在不同 GPU 间更均衡地分配,避免某个节点/专家卡成为系统瓶颈。

1. deepseek API 服务利润利润率达到惊人的545%?

DeepSeek 在线API 服务数据

硬件配置:H800 GPU 集群(1 个节点 = 8 张 H800 GPU)。在本次统计区间内,峰值占用达 278 个节点,平均占用 226.75 个节点。精度设置:矩阵乘法与分发传输使用 FP8,核心 MLA 计算及组合传输使用 BF16,保证高效推理与高精度兼得。

24 小时内的吞吐量与开销

  • 统计区间:2 月 27 日中午 12:00 至 2 月 28 日中午 12:00

  • 总输入 token:6080 亿,其中 3420 亿(约 56.3%)命中磁盘 KV 缓存,不需要完整推理计算。

  • 总输出 token:1680 亿,平均输出速度 20~22 token/s,每个 token 对应平均约 4,989 个 KV 缓存长度。

  • 单节点吞吐量:

    预填充阶段:每秒约 7.37 万个输入 token(含缓存命中)

    解码阶段:每秒约 1.48 万个输出 token

成本与收益

成本估计:假设租用一张 H800 GPU 价格 2 美元/小时,则一天运行费用约 87,072 美元。

理论收入(使用Python模拟):若所有请求都按 R1 定价计费(输入 token 0.14~0.55 美元/百万,输出 token 2.19 美元/百万),24 小时产生 562,027 美元收入,利润率高达 545%。

实际营收:由于 DeepSeek-V3 的计费低于 R1、网页/APP 免费、夜间折扣等原因,真实收入应低于理论值。

很多读者感慨“技术才是第一生产力”,在高效率、高吞吐量的推理架构之下,可以创造出让人惊叹的利润空间。也有网友提出,如果真的要做到免费,势必需要在夜间或者闲置资源时段进行灵活调度。对企业来说,盈利模式可能不只依赖于 token 收费,也可能通过定制化服务、企业级解决方案、API 授权等方式实现。

一些人也好奇,“输入比输出高这么多倍,是因为请求庞大还是响应不充分?” 根据文章给出的数据,主要还是用户请求量(输入)非常庞大,再加上大量的 KV 缓存命中,导致输入 token 总量远大于输出。

看起来这是一个非常可观的理论利润率(545%),真的有这么高吗?

从目前公开的信息来看,DeepSeek 在计算 GPU 成本时,主要采用了“每小时 2 美元”的「租赁成本」假设,并没有细化硬件折旧或整体运维摊销(包括工程师薪资、电力冷却、机房租金、网络带宽等)等因素。因此,文中给出的 545% 利润率更多体现了“理想化、基于 GPU 即时租用价格的利润测算”,并非企业全面财务核算之后的真实净利润率。

DeepSeek 给出的成本基于「按小时付费」的租赁价(2 美元/小时·卡)来估算。如果他们确实使用云服务(或第三方 GPU 机房)进行租赁,那么云服务商的定价中多少已经隐含了“硬件折旧 + 运维 + 利润”。

在这种情况下,折旧本身已经转化为云服务商的成本,对 DeepSeek 而言,确实只需要关心「租赁费用」即可。如果 DeepSeek 自行采购 GPU 并自行运维,就还要额外计算硬件折旧摊销、维护等隐藏成本;这部分在文中并未详细体现。

除了 GPU 硬件本身的折旧或租赁费用,企业真实运营往往还包含人力成本、机房租金、配套服务器(存储、带宽)以及其他运营支出。这些也同样会影响最终净利润率。DeepSeek 给出的数据更像是“推理集群的直接成本”估算(也可以理解为“云平台直接账单”),而非企业层面完整的会计核算。

理想化利润率为何可能很高?

DeepSeek 使用了高稀疏度 MoE(混合专家)模型和跨节点专家并行(EP)技术,让单位 GPU 服务更多请求,从而单卡产出远高于一般大模型推理部署。当某个系统在极高负载、且平均时段内大部分资源都被充分利用时(例如服务的平均并发量非常大),单位成本就被摊得很低。

输入 token 相比输出 token 价格低很多,但实际请求中有大比例命中了缓存,减少了实际计算负载;输出 token 价格比输入高不少,一旦产生大量输出(用户请求长回答),就能带来显著收入。在这种高并发 + 部分缓存命中 + 长文本输出的场景下,理论收益容易被放大。

从文中 545% 的数字看,更像是运营推理服务所获得的“毛利率”(基于云 GPU 租金 vs. token 收益),而非企业全局的纯利率。很多公司在仅计算“硬件云成本”时,毛利水平可高达几百到上千个百分点,但一旦把研发投入、人力、办公等再加进去,真实“净利润率”自然会下降。

DeepSeek 给出的 545% 利润率,应该是不包含硬件折旧(若自建机房则需要自行折旧计算),也没有全面覆盖其他各项运营成本(人力、带宽、冷却等)。这一数值主要反映在“以 GPU 即时租赁成本”对照“按 R1 计费方式的理想收入”,是一个理想化的推理业务端“毛利率”

对于 AI 服务商,最终能否实现高利润,还取决于市场竞争、定价策略、用户规模、资源利用率以及内部研发/运营费用等多重因素。综上,545% 的数字虽然引人注目,但更多是技术与规模效应下的一种上限测算,并不代表实际财务报表中可直接落袋的净利润率。

2. 理论与现实存在巨大差距,第三方API服务商压力巨大

还跟哪些因素相关?如果真实的利润率这么高,很多第三方云服务商不至于还要停服吧?

近期潞晨科技CEO尤洋指出,满血版DeepSeek-R1每百万token(输出)定价16元,如果每日输出1000亿token,一个月算下来接入方企业可获得4800万元收入。

据他测算,完成1000亿token的输出,需要约4000台搭载H800的机器,以目前H800的市价或者折旧来计算,每月仅机器成本就达4.5亿元,因此企业方可能面临每月4亿元的亏损,“用户越多,服务成本越高,亏损越多”。

云服务商突然停服 DeepSeek API,并不违背“DeepSeek 理论利润率很高”这一事实:理想收益与真实运营成本之间,依旧存在不小的鸿沟。

DeepSeek 公布的 545% 利润率,是基于以下理想化假设计算所得:

  1. 仅将 GPU 小时租赁成本(2 美元/小时·卡)视为“唯一”成本;

  2. 所有流量都按 R1 标准定价收取(无折扣、无免费额度、无其他低价方案)。

然而,在真实的商业运营中,情况往往复杂得多:

  • 机器并不总是「满负载」。如果吞吐不饱和,就难以充分摊薄每张卡的成本;

  • 不同客户或场景可能享受免费或折扣。DeepSeek 自己也承认实际收入“远低于理论值”;

  • 研发、运维、人员、带宽、电力、数据存储与分发等费用也不可忽视,单纯用“2 美元/小时·卡”无法覆盖所有支出;

  • 如果云服务商自行采购 GPU 并长期持有,也得计算硬件折旧、资本开支(CapEx)、融资成本等因素。

理论利润高并不代表所有参与方都能拿到这样的高收益。一旦任何成本高于理论设定、或实际收费无法接近理论值,都可能让利润率迅速下降,甚至出现亏损。

商业模式与风险承担不对等,对于许多云服务提供商而言:

①云厂商承担了更多的底层成本和运维风险

要提供 API 服务,云厂商要先搭建或租用大规模 GPU 集群,一旦客户请求爆发式增长,云厂商就必须扩容,而成本大概率比“2 美元/小时·卡”更高(实际采购或运营成本要远大于此);如果用户行为存在不确定性,云厂商在闲时则会有大量资源闲置,也在背负固定成本;

②定价策略由 DeepSeek 设定,云厂商只是“执行者”

假设 DeepSeek 对最终用户实施低价或免费策略,那么云厂商所得的分成或代理费用就会非常有限;如果出现高并发、高负载且大部分是免费用户,云厂商在资源层面却要付出真金白银,无法覆盖成本。

云厂商真实利润率不一定等同于 DeepSeek 官方披露的理想值

DeepSeek 的 545% 理论毛利率只是站在“以极优成本+高负载+R1 价”来衡量“推理服务”时所做的简化对比;对云厂商而言,实际成本结构中包含其他不可回避的项目(人力运维、能耗、专线网络……),且深度合作的分成模式也未必有如此高收益。

云服务商在运营 DeepSeek API 过程中,承担了底层运营风险和不对称的收入结构,一旦发现继续提供服务难以盈利,或收益预期极不稳定,停服也就不难理解。

DeepSeek 公开的“每卡 2 美元/小时”是租用成本的一种「理想化假设」,或在某些海外云平台上存在限时优惠。但在国内外市场实际采购或长期自营 GPU 时,可能面临:

  1. 巨额资本支出 (CapEx):一台服务器可能搭载 8 张 H800(或 8× A100/A800…),购买成本往往在数十万元到上百万元不等。4000 台就可能是数十亿的初始投入。

  2. 折旧与维护:即便通过折旧摊销,综合月度成本也远高于“2 美元/小时 × 24 小时 × 30 天”所得到的数值。企业需要支付机房租金、电力空调、网络专线、人力运维等一系列额外花费。

  3. 峰谷不均衡:如果用户峰值负载只有 1~2 小时很高,其他时间段低迷,就会有很多 GPU 处于空转状态。但硬件折旧和机房运维费却是“无时不刻”地在发生。

所以,对于大多数企业来说,若想自建或长期租用大规模 GPU 集群提供“无限量”高质量推理服务,实际成本常常高得惊人,远不止 DeepSeek 理论模型中“2 美元/小时·卡”能覆盖。

潞晨科技 CEO 尤洋给出的测算,实际上直指了“大模型商用落地在算力层面的沉重成本”。当前看似“高收益、高利润率”的大模型推理服务,在真正面对海量用户时,硬件及运维成本会迅速放大。

仅靠“输出 token × 单价 = 收入”来覆盖成百上千台 GPU 的折旧、运维、能耗和研发投入,往往是不足的。当服务规模越大,所需 GPU 越多、支出曲线就可能呈指数级上升,而“用户付费意愿”或“单价”却难以跟上这样的成本增幅,于是出现“用户越多,亏损越大”的悖论。

“理论利润率 545%”本就带有极强的理想化前提;真正落地时,大规模并发+免费用户比例+贴近成本的资源价格等诸多现实因素,往往让云服务商无法复制或接近此理论利润率。

当云厂商评估发现:实际盈利前景有限,甚至处于亏损边缘,或对后续合作条款缺乏确定性,就可能果断停止 DeepSeek API 的对外服务。

因此,云服务商突然停服 DeepSeek API,并不违背“DeepSeek 理论利润率很高”这一事实:理想收益与真实运营成本之间,依旧存在不小的鸿沟。

3. 实际利润率还与更多因素相关

从数学模型的角度来抽象一下,可能理解会更加深刻:

针对DeepSeek-V3/R1推理系统的成本、收入与利润率问题,我们可通过建立数学模型进行定量分析,以下是基于公开数据的深度建模与推演:

一、成本模型(Cost Model)

1. 显性成本(Explicit Cost)

2. 隐性成本(Implicit Cost)


二、收入模型(Revenue Model)

1. 输入输出Token拆分

设每日总Token处理量为:

2. 分层定价与缓存影响

3. 吞吐量约束


三、利润率模型(Profitability Model)

1. 理论利润率(理想条件)

2. 实际利润率(含隐性成本与负载率)


四、敏感性分析(Sensitivity Analysis)

通过蒙特卡洛模拟或偏导数分析关键变量对利润率的边际影响:

1. 缓存命中率 β

2. 负载率γ

3. 定价策略


五、风险量化模型(Risk Quantification)

1. 盈亏平衡分析

2. 波动率影响


从抽象的数学模型来看,数学模拟带来的启示在于:DeepSeek API 服务商的商业模式高度依赖规模效应技术护城河,需通过持续优化β、γ 、α 三变量来抵御市场波动。

DeepSeek 公布的 545% 利润率,依赖多项“理想化假设”:满负荷无隐性成本或隐性成本极低、无限需求全按高价收费。实际运营中,这些条件往往难以完全满足,导致真实利润率大打折扣。

关键点:提升缓存命中与利用率

①缓存命中率 (β):直接影响输入部分的计费与计算负载;

②负载率 (γ):是决定资源利用效率的核心,企业若想保持利润,就需要弹性调度、批量并行、峰谷错配等运营手段,将 GPU 利用率尽量提升。

关键护城河在于:第一,维持高缓存命中率(需用户行为可预测);第二,技术优化压缩隐性成本(如电力效率提升)。

从缓存命中率和隐性成本优化的角度,垂直类企业SaaS服务公司确实可能比通用型AI服务商更有优势,垂直SaaS的缓存命中率优势:用户行为可预测性

① 场景收敛与需求模式固化

垂直领域特征:用户行为受行业规则限制(如医疗SaaS的ICD-10编码查询、零售SaaS的库存SKU检索),请求类型高度集中,长尾需求少。

缓存策略优化:可预置高频查询结果(如药品数据库、行业法规文本),甚至通过预训练领域知识图谱实现近100%缓存命中。

② 数据闭环增强可预测性

  • 用户画像沉淀:垂直SaaS积累客户历史行为数据(如物流公司的运单查询周期、制造业的设备故障排查规律),可训练预测模型提前缓存相关结果。

  • 主动缓存(Proactive Caching):结合业务流程(如ERP系统中的月度财报生成),在需求波峰前预加载资源。

  • 所以,SaaS企业+云巨头的API服务似乎能碰撞最大的火花。云巨头与垂直SaaS的协同,绝非简单的资源外包+行业经验叠加,而是通过数据流重构、算力-知识双向反馈、联合收益模型实现深度耦合。这种模式将重塑AI服务的成本结构——边际成本趋近于缓存维护而非原始计算,最终催生新一代“智能即服务”(Intelligence-as-a-Service)生态。胜负手在于:谁能更快构建跨域的缓存语义网络,并设计出激励相容的商业模式。

对 AI 从业者的有哪些重要启示?

技术层面:如何实现更高效的大模型推理?

  • 提高批处理规模(GPU 矩阵运算效率更高);

  • 减少单卡专家负载(延迟更低);

  • 重叠通信和计算(流水线/双 microbatch);

  • 负载均衡避免单点瓶颈。

  • 跨节点专家并行 (EP) + Data Parallel (DP) + Pipeline的组合拳:

  • 这些经验可以为大规模模型在工业生产环境中的落地提供重要参考。

商业层面:分时调度 + 差异化定价

  • 白天高峰时段部署更多节点,夜间缩减集群规模;

  • 对不同类型的请求(缓存命中/未命中、输入/输出 token)实施不同价格;

  • 通过缓存命中率降低系统负载,却仍可收取一定费用;

  • 形成高效率+较合理价格的商业模式,同时保留免费策略吸引更多用户。

要真正落地并保持可观利润,还需考虑市场竞争、产品定位(免费策略 vs. 付费服务)、运营成本、研发投入等;如果能够像 DeepSeek 这样高效利用资源、在峰谷时段灵活调度,并拥有庞大用户量支撑,就可以在实际中获得较高的盈利水平。

本文来源:贝叶斯之美,原文标题:《DeepSeek API理论利润率有545%,为什么还有云服务商停止服务了?》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章