3月10日,华尔街见闻获悉,字节豆包大模型团队开源针对 MoE 架构的关键优化技术COMET,可将大模型训练效率提升1.7倍,成本节省40%。据悉,该技术已实际应用于字节的万卡集群训练,累计帮助节省了数百万 GPU 小时训练算力。
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
3月10日,华尔街见闻获悉,字节豆包大模型团队开源针对 MoE 架构的关键优化技术COMET,可将大模型训练效率提升1.7倍,成本节省40%。据悉,该技术已实际应用于字节的万卡集群训练,累计帮助节省了数百万 GPU 小时训练算力。
MoE 是当前大模型的主流架构,但其在分布式训练中存在大量跨设备通信开销,严重制约了大模型训练效率和成本。针对MoE通信瓶颈,COMET通过在计算-通信重叠层面的多项创新,大幅降低了MoE流水线上的通信延迟。同时,COMET支持业界绝大部分主流大模型,并可以像插件一样接入已有的MoE训练框架,无需进行侵入式改动,也可以与DeepSeek开源的DualPipe方案联用以更大压缩训练成本。该工作以高分入选了全球机器学习系统顶级会议 MLSys 2025。(全天候科技)