突破H800计算上限!DeepSeek放出第一个开源库,FlashMLA再掀降本潮?
2月24日周一,DeepSeek宣布启动“开源周”,首个开源的代码库为Flash MLA,目前已投入生产。
据介绍,FlashMLA的灵感来自 FlashAttention 2&3 和 cutlass 项目,是针对英伟达Hopper架构的GPU优化的高效MLA解码内核,主要在变长序列 (variable-length sequences) 的场景进行了深度优化,能够显著提升大模型推理效率。
突破GPU算力瓶颈,推理成本进一步降低
MLA是DeepSeek提出的创新注意力架构,是DeepSeek在系列模型中实现成本大幅降低的关键所在。分析认为,随着FlashMLA的应用,算力成本有望继续下降。
一般来说,大模型主要包含训练和推理解码两个阶段。有分析表示,如果能在解码阶段有更强的核优化序列,意味着大模型可以更快地产出结果,这对实时生成任务(如聊天机器人、长上下文对话等)来说尤为关键。
开源网页信息显示,FlashMLA 的运行环境要求包括Hopper GPU、CUDA 12.3及以上版本以及PyTorch 2.0及以上版本,只需通过`python setup.py install`即可完成配置。
性能方面,FlashMLA在CUDA 12.6环境下,H800 SXM5内存受限配置下可实现3000 GB/s的带宽,计算受限配置下则可达580 TFLOPS的算力。
因此,可以将FlashMLA理解为:DeepSeek专门针对英伟达H800这一代高端加速卡做的深度优化。
有网友指出,FlashMLA的计算速度已达行业平均水准的8倍,甚至超过了H800 1681GB/s的传输峰值。
这意味着,通过使用FlashMLA,可以在更少的Hopper GPU服务器的情况下部署完成相同的任务量,而无需昂贵的硬件升级,使推理成本大大下降。
上周五,DeepSeek宣布,接下来一周会陆续开源5个代码库,每日都有新内容解锁,进一步分享新的进展。
DeepSeek还表示,当前在线服务的模块已经经过测试、部署完备,可以投入生产环境。这个领域没有高高在上的象牙塔,只有纯粹的车库创业精神与社区共筑的创新力量。