DeepSeek开源周观察：DeepSeek上午开源，Nvidia下午集成

共识粉碎机

2025/02/26 08:08

DeepSeek的开源，尤其是infra开源，短期内极大地加强了英伟达生态的护城河。据了解，英伟达内部把DeepSeek的支持重要性排到了Llama之前，成为了最重要的开源项目，内部的资源和流程也是一路绿灯。

今天是DeepSeek开源周第二弹，果然把众望所归的MoE EP通信的实现给开源了，支持以下feature：

✅ Efficient and optimized all-to-all communication

✅ Both intranode and internode support with NVLink and RDMA

✅ High-throughput kernels for training and inference prefilling

✅ Low-latency kernels for inference decoding

✅ Native FP8 dispatch support

✅ Flexible GPU resource control for computation-communication overlapping

Quote某位大佬的评论，写这个通讯库的同学能力是世界级的，不愧是清华超算队出身+在nv实习过，一般人想不出来:

对同步机制的理解是大师级的
非常理解最小化读写指令数量，尽可能使用64/128bits读写指令
尽可能不使用CPU的网卡驱动
使用极其偏门的OPEN_SH_MEM通讯库
直接改了NV的SM核来做通信
可能比很多NV的人都更懂NV底层

和我们昨天以及今天的分析一致，DeepSeek的开源，尤其是infra开源，在短期是极大的加强了NV生态的护城河，NV有种躺赢的感觉。比如，今天DeepEP上午开源，Nvidia这边下午就集成到了Megatron-LLM。据了解，老黄在NV内部把DeepSeek的支持重要性排到了Llama之前，成为了最重要的开源项目，内部的资源和流程也是一路绿灯。DeepSeek本身也是基于Nvidia的GPU全面优化的，比如改写SM核来做通信，AMD的GPU就不支持...

无独有偶，今天Nvidia也发布了B200的DeepSeek R1适配情况，飙升到了21,088 Token/s。B200 8T的带宽+FP4，理论上直接就能比H200有3.33x的效果提升，这也和这张官方表的情况是类似的。相信后续随着NV的进一步优化，TPS还能提升。比较有意思的是，NV官方表示，FP4的准确度只比FP8低了0.2%，非常期待进一步的benchmark。

不过，如果模型不能继续scale up，看起来DeepEP的结果也很明确，稀疏MoE的通信bottleneck是RDMA scale out而不是scale up，NVLink的硬件壁垒是可能受到影响的。

今天还有一条新闻，路透社表示，DeepSeek R2原本计划未来几个月发布，而公司现在希望尽快推出。

我们也分析过，NSA(Native Sparse Attention)的发布，可以说就是为了进一步增强长文本和长CoT准备的，DeepSeek的实验也表示，NSA甚至比传统的full attention，在长文本上的表现更好且更快！这也是为了R2和V4，做了进一步的infra level的准备。

据我们了解，R1其实是一个比较“粗糙”的工作，而参考从o1到o3的过程，通过进一步细化CoT和数据准备等等，是可以确定性的在下一个版本看到智能的飞跃的。DeepSeek R2是有希望达到o3 level的水平的，在coding方面，也是有希望可以达到claude 3.5 sonnet的。参考下图，之前o3对比o1的能力，如果这样一个强大的模型能够进一步开源，相信对于整个下游应用和模型生态，都有巨大的推动作用。

非常期待DeepSeek下面V4和R2的工作。

本文来源：共识粉碎机，原文标题：《DeepSeek开源周观察-2：DeepSeek上午开源，Nvidia下午集成》，华尔街见闻有所删减

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。