DeepSeek开源周观察:DeepSeek上午开源,Nvidia下午集成

共识粉碎机
DeepSeek的开源,尤其是infra开源,短期内极大地加强了英伟达生态的护城河。据了解,英伟达内部把DeepSeek的支持重要性排到了Llama之前,成为了最重要的开源项目,内部的资源和流程也是一路绿灯。

今天是DeepSeek开源周第二弹,果然把众望所归的MoE EP通信的实现给开源了,支持以下feature:

✅ Efficient and optimized all-to-all communication

✅ Both intranode and internode support with NVLink and RDMA

✅ High-throughput kernels for training and inference prefilling

✅ Low-latency kernels for inference decoding

✅ Native FP8 dispatch support

✅ Flexible GPU resource control for computation-communication overlapping

Quote某位大佬的评论,写这个通讯库的同学能力是世界级的,不愧是清华超算队出身+在nv实习过,一般人想不出来:

  • 对同步机制的理解是大师级的

  • 非常理解最小化读写指令数量,尽可能使用64/128bits读写指令

  • 尽可能不使用CPU的网卡驱动

  • 使用极其偏门的OPEN_SH_MEM通讯库

  • 直接改了NV的SM核来做通信

  • 可能比很多NV的人都更懂NV底层

和我们昨天以及今天的分析一致,DeepSeek的开源,尤其是infra开源,在短期是极大的加强了NV生态的护城河,NV有种躺赢的感觉。比如,今天DeepEP上午开源,Nvidia这边下午就集成到了Megatron-LLM。据了解,老黄在NV内部把DeepSeek的支持重要性排到了Llama之前,成为了最重要的开源项目,内部的资源和流程也是一路绿灯。DeepSeek本身也是基于Nvidia的GPU全面优化的,比如改写SM核来做通信,AMD的GPU就不支持...

无独有偶,今天Nvidia也发布了B200的DeepSeek R1适配情况,飙升到了21,088 Token/s。B200 8T的带宽+FP4,理论上直接就能比H200有3.33x的效果提升,这也和这张官方表的情况是类似的。相信后续随着NV的进一步优化,TPS还能提升。比较有意思的是,NV官方表示,FP4的准确度只比FP8低了0.2%,非常期待进一步的benchmark。

不过,如果模型不能继续scale up,看起来DeepEP的结果也很明确,稀疏MoE的通信bottleneck是RDMA scale out而不是scale up,NVLink的硬件壁垒是可能受到影响的。

今天还有一条新闻,路透社表示,DeepSeek R2原本计划未来几个月发布,而公司现在希望尽快推出。

我们也分析过,NSA(Native Sparse Attention)的发布,可以说就是为了进一步增强长文本和长CoT准备的,DeepSeek的实验也表示,NSA甚至比传统的full attention,在长文本上的表现更好且更快!这也是为了R2和V4,做了进一步的infra level的准备。

据我们了解,R1其实是一个比较“粗糙”的工作,而参考从o1到o3的过程,通过进一步细化CoT和数据准备等等,是可以确定性的在下一个版本看到智能的飞跃的。DeepSeek R2是有希望达到o3 level的水平的,在coding方面,也是有希望可以达到claude 3.5 sonnet的。参考下图,之前o3对比o1的能力,如果这样一个强大的模型能够进一步开源,相信对于整个下游应用和模型生态,都有巨大的推动作用。

非常期待DeepSeek下面V4和R2的工作。

本文来源:共识粉碎机,原文标题:《DeepSeek开源周观察-2:DeepSeek上午开源,Nvidia下午集成》,华尔街见闻有所删减

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章