中国芯片，DeepSeek与Kimi的隐秘交点

腾讯科技

04-21 22:28

396

Kimi发布开源模型K2.6，强化代码与Agent能力。其最新论文提出“预填充即服务”架构，通过混合模型大幅压缩KV缓存，实现跨数据中心、异构硬件的推理降本。这一实践为中国模型适配国产芯片打通了可行路径。在DeepSeek V4尚未发布之际，Kimi已率先为“中国芯片+中国模型”的合体探路。

“K2.6是我们迄今为止最强代码模型。”Kimi在公众号中写道。

4月20日晚间，Kimi正式推出编程、Agent能力都表现更强的开源模型K2.6，距离上一个版本K2.5发布刚好一个季度左右。

这里还有一个小插曲，传闻本周DeepSeek V4也将发布。如果一切按外界预期的推进，这将是Kimi和DeepSeek的第N次撞车。但在更底层的基础设施层面，还有一条暗线：Kimi和DeepSeek这两个大模型创业公司，终将踏入同一条河流——与国产芯片创业公司共进退。

时间倒回2026年3月份，杨植麟在英伟达GTC演讲台，谈及Kimi的技术路线图。他说：“目前普遍使用的很多技术标准，本质上是八九年前的产物，逐渐成为Scaling的瓶颈。”

为了解决类似问题，Kimi给开源社区贡献了首次大规模应用的二阶优化器MuonClip、让大模型处理长上下文更高效的Kimi Linear架构，以及优化深度神经网络层连接的Attention Residuals。

Kimi的Scaling策略

杨植麟认为，将Kimi的进化逻辑归纳为Token效率、长上下文以及智能体集群“合体”。刚刚上线的Kimi K2.6，可以理解为杨植麟在这条Scaling路径下新交的一份作业。

Kimi官网已接入K2.6

代码、Agent，还有呢？

作为最容易标准化的能力项之一，代码是前沿模型的必争之地。

从K2、到K2.5、再到K2.6，Kimi在几个开源模型上保持着平均一个季度左右的迭代节奏，但由于这是个小版本号，暗示杨植麟手中可能还有更多的底牌。

“K2.6长程编码能力显著提升，在测试中可以不间断编码13小时，编写或修改超过4000行代码，”Kimi在一份传播材料中写道，“在涵盖了多种复杂端到端任务的、Kimi内部严格代码评测基准Kimi Code Bench中，K2.6的成绩比K2.5提升了约20%。”

要知道K2.5已经是一个非常“能打的模型”，OpenRouter上2月份一度霸榜。一位接近Kimi的知情人士贴出了联合创始人张宇韬发当时在朋友圈的截图，“他貌似对这个版本很满意。”

通用Agent、编程和视觉Agent基准测试上，K2.6的表现

对OpenClaw、Hermes这类Agent框架，K2.6的核心提升集中在API调用的精准性和长时间运行的稳定性——一个是提升任务执行的成本，一个则是优化任务执行的销效率。

1月份上线的K2.5当中，Kimi提出了“Agent集群”的概念，将一项任务拆分成多个子项目，自动化分配给不同领域的Agent来跟进处理，进而缩短任务处理的失效，同时避免串行任务流下整个项目崩溃的可能性。

Kimi K2.6的Agent集群能力演示

在新的K2.6版本中，这个能力被进一步放大，将广度搜索与深度调研、大规模文档分析与长篇撰写以及多格式内容生成进行集成与并行处理，最多支持300个子Agent并行完成4000个协作步骤。

如果要一句话概括Kimi K2.6亮点，大致包括：代码和长程任务能力进化、Agent集群能力进化与主流Agent框架适配优化。

如果要从上述的功能特性里面找一个个人的偏好，我认为Agent集群是最有价值的一个能力，它直接将并行计算爆炸性能力具象化了——无论是代码，还是长程任务的稳定性，这些都是模型迭代必须去做的事情，更重要的是，基于这些能力提升，推动Agent的工作方式、效率甚至是交互方式创新。

毕竟，作为用户，我要的不是它告诉我能怎么样，而是它能驱动Agent来解决我实实在在的问题，形成有效生产力。

K2.5上线的时候，一位学界研究员开始利用这款模型开展科研项目，当时他的评价是没有短板，可以作为科研助手。

“官方提供的多Agent确实有效，去年国产的Agent很多还是toy。”

如果Kimi K2.5在内外部评价都不错，在这个基础上更进一步的K2.6，效果会如何呢？

Artifacial Analysis智能榜单，Kimi K2.6仅次于三家闭源模型，并领跑开源模型权重榜单

路线图里的“新故事”

Kimi总是时不时给行业搞点新意思，其中就包括杨植麟演讲中路线图里提到MuonClip、Kimi Linear、Attention Residuals，一些探索也得到了行业顶流的正向打Call。

3月中旬，Kimi发布Attention Residuals这篇论文，提出利用注意力机制来改造残差连接，马斯克直接发推称这是“Kimi做得令人印象深刻的突破。”

上周末，Kimi发布了一篇新论文《Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter》，（PrfaaS，预填充即服务），提及Kimi在架构上的新探索，核心讨论的仍然PD分离(Prefill和Decode)。

PD分离并不是新话题——模型推理的Prefill阶段属于计算密集任务，Decode阶段则依赖显存带宽，显存要来回读写KV Cache——这种架构要解决的是将计算密集型任务和带宽密集型任务解耦，提高算力利用率和吞吐量，进而降本增效。

PD分离虽好，但也有一个卡点：必须基于同机房的RDMA高速网络。

Kimi的PrfaaS这篇论文，核心点在于：基于混合模型（Kimi Linear）大幅缩减了KV缓存体积，然后把Prefill和Decode彻底解耦到不同的异构集群。

论文提及的实验示例显示，PrfaaS专用预填充集群使用32张主打高算力的H200；本地PD解码集群使用张通过RDMA内网互联的H20 GPU；两组集群通过VPC专线打通，跨集群总带宽约100Gbps。测试模型为1T参数的Kimi Linear混合注意力模型。

实测结果显示，PrfaaS‑PD跨数据中心方案，相比采用96卡H20同PD集群方案，吞吐量提升54%，P90 TTFT（90%的用户，从发请求到看到第一个字返回的等待时间）从9.73s降至3.51s，降低6 4%，跨数据中心 KV缓存传输带宽仅占用总带宽100Gbps中13%。

不同上下文长度下，混合架构模型与稠密模型KV吞吐量对比

为了证明混合模型架构的优势，论文提到一组实验：8卡H200和SGLang v0.5.9推理框架下，对多款主流模型进行基准测试，32K上下文长度时，采用混合注意力的MiMo‑V2‑Flash模型KV 吞吐量仅4.66Gbps，而同规模稠密注意力模型MiniMax‑M2.5高达59.93Gbps，直接证明混合注意力架构可将KV缓存传输需求压至普通以太网可承载范围。

“跨数据中心+异构硬件，解锁显著降低单token成本的潜力。”Kimi在官方账号上说。

关于Token降本，我在《人民想念DeepSeek》这篇里就提到过，模型、硬件层面都优化的空间，上海财经大学胡延平教授特地发了一条朋友圈，强调降本这件事不能只靠一个DeepSeek，“问题的解决取决于算力供给的成本效率、模型素质的跨代提升、智能范式的持续进阶、工作流和场景拉通的放大效应等。”

这个角度看，Kimi又给行业讲了一个Token降本的新故事。

中国模型召唤中国芯片

在预填充即服务这篇论文里，更多的人只注意到了跨数据中心这个叙事，而忽略了异构硬件这一点。

需要注意，H200和H20在芯片架构上仍然是Hopper架构，论文提到的异构代指带宽、算力上的异构，它的启示在于：我们可以用一部分算力强的国产卡来做Prefill，或者带宽强的国产卡来做Decode，当然也可以与海外卡混用来实现降本增效。

可以说，这是Kimi为中国芯片打开的一扇大模型推理的大门。

在一位国产算力人士看来，要接住预填充即服务这种方案带来的这波流量利好，依旧不得不面生态这个老问题。

过去几年，中国大模型一直因为生态难题被卡在国产算力之外，但还有另一个不被注意的细节：H20这样的产品，已经断供一年了。换句话说，推理芯片短期内只有国产一个选项。

随着推理需求暴涨，相比于供给，生态挑战将切换为次要问题——中国大模型对国产算力的依赖从过去可用可不用，转变为不得不用。也是因为这一点，很多预测都在讨论DeepSeek V4正在适配国产算力。

我和胡延平老师在《给DeepSeek的最后一封催更信》中说，适配国产算力，这条路对国产模型来说非常艰难，但从更长远的时间来看又不得不做。一件不得不做的事情，总要有起点，或许DeepSeek V4就是那个起点。

现在，DeepSeek V4还没有来，而Kimi已经用自己的实践，为中国模型+中国芯片的合体，探索了一条可行的路径。

Kimi率先作为模型代表伸出橄榄枝，问题现在交给了国产芯片创业公司。

大家还记得在《the Dwarkesh Podcast》最新的播客中，被问及禁止中国出口芯片时黄仁勋的反应吗？他说，芯片又不是铀浓缩，禁售阻挡不了中国芯片的进步，他们依旧可以通过国产芯片暴力堆叠来开发模型。

为什么黄仁勋这样说？DeepSeek和Kimi的下一步，就是标准答案。

本文来源：腾讯科技

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。