MoE模型训练效率飞跃!DeepSeek开源周第二日:开源EP通信库

据介绍,DeepEP是全球首个专为混合专家模型(MoE)和专家并行(EP)定制的开源高性能通信库,旨在解决大规模AI模型训练与推理中的通信瓶颈问题。

DeepSeek开源“第二弹”,重新定义AI通信效率。

“开源周”第二日,DeepSeek官宣全球首个用于MoE模型训练和推理的开源EP通信库,旨在解决大规模AI模型训练与推理中的通信瓶颈问题。

据介绍,EP通信库的特点包括:高效、优化的全员沟通;节点内和节点间均支持NVLink和RDMA;用于训练和推理预填充的高吞吐量内核;用于推理解码的低延迟内核;原生FP8调度支持;灵活的GPU资源控制,实现计算-通信重叠。

总体看,核心功能主要包括三部分:

  • 高性能内核:提供高吞吐、低延迟的GPU通信内核(即MoE中的"分发"与"聚合"操作);

  • 低精度支持:完整支持FP8等低精度计算模式;

  • 智能通信优化:针对不同场景提供差异化加速方案。

值得注意的是,该通信库仍然只支持英伟达Hopper架构的GPU。

在GitHub同时公布的测试案例显示,DeepEP在H800 GPU(NVLink 160GB/s + RDMA 50GB/s)的测试中,训练场景下节点内分发/合并带宽达153-158GB/s,跨节点RDMA带宽稳定在45GB/s级别。

推理场景下,延迟低至163微秒,RDMA带宽保持39-46GB/s,满足实时交互需求。

总结而言,在性能表现方面,基于H800 GPU,DeepEP可以通过NVLink技术实现单节点内GPU间极速通信,带宽高达约150GB/s,相当于1秒传完30部高清电影;可以通过RDMA技术(类似高铁专线)连接不同服务器,跨节点带宽约45GB/s,比传统方法快3倍以上。

同时,DeepEP支持FP8数据格式,意味着使通信数据量减少50%,同时保持精度,特别适合千亿参数大模型的传输需求。

作为“开源周”发布的第二个开源库,DeepEP延续了DeepSeek“透明化AGI探索”的承诺,发布后继续收获好评,有网友锐评:“你们才是真正的OpenAI。”

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章