7*24 快讯

腾讯混元AI Infra新开源:HPC-Ops推理核心算子全面升级

为了进一步满足推理系统对动态业务负载的适应性、核心模块对复杂精度和高性能融合算子的需求,HPC-Ops 推出全新更新开源升级,包含五大关键算子。本次升级在主流推理平台上,有效缓解了Attention长尾延迟、显存搬运开销、跨卡通信等实际工程瓶颈,多项性能指标显著优于现有的开源基线。

本次升级的主要亮点包括:

Attention:针对真实负载下长短请求混排导致的计算不均、推理长尾问题,采用运行时动态负载调度方案,实测长文本最高加速2.95x,端到端QPM最高提升17%。

Router GEMM:以双BF16 GEMM组合实现FP32级高精度计算,兼顾推理精度与GPU算力利用率。精度显著优于常规BF16/TF32方案,对比CuBLAS FP32最高提速3.22x。

FusedMoE:构建MoE全模块流水线,整合多阶段流程、消除显存搬运与内核启动开销。相较vLLM、SGLang等主流框架,性能提升1.2x~1.6x。

Fused AllReduce+Norm:深度融合跨GPU通信、残差叠加与归一化计算。对比NCCL、FlashInfer主流方案,性能实现1.04x~1.68x提速。

Sampler:将解码阶段的采样计算(原本需要十多个操作算子)融合为2个CUDA Kernel,大幅减少调度、读写与同步冗余开销。相较vLLM提速4.0x~7.5x、较FlashInfer提速1.9x~4.7x,补齐推理末端短板。(腾讯混元微信公号)

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。