DeepSeek开源周第三天：为V3/R1训练和推理提供支持的DeepGEMM

DeepSeek宣布，DeepGEMM是一个专为简洁高效的FP8通用矩阵乘法，GEMM设计的库，具有细粒度缩放功能，如DeepSeek-V3中所提出。它支持普通和混合专家（MoE）分组的GEMM。该库采用CUDA编写，在安装过程中无需编译，通过使用轻量级的即时编译（JIT）模块在运行时编译所有内核。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

目前，DeepGEMM仅支持NVIDIA Hopper张量核心。为了解决FP8张量核心累加不精确的问题，它采用了CUDA核心的两级累加（提升）方法。虽然它借鉴了CUTLASS和CuTe的一些概念，但避免了对它们模板或代数的重度依赖。相反，该库设计简洁，仅包含一个核心内核函数，代码量约为300行。这使其成为学习Hopper FP8矩阵乘法及优化技术的清晰且易于获取的资源。

风险提示及免责条款