腾讯混元AI Infra团队正式推出开源生产级高性能LLM推理核心算子库HPC-Ops。腾讯混元称,在真实场景下,基于HPC-Ops,混元模型推理QPM提升30%,DeepSeek模型QPM提升17%。同时,在单算子性能方面,HPC-Ops实现Attention相比FlashInfer/FlashAttention最高提升2.22倍;GroupGEMM相比DeepGEMM最高提升1.88倍;FusedMoE相比TensorRT-LLM最高提升1.49倍。(界面)
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。