小米MiMo首次公开模型推理系统全链路优化技术细节

小米正式公开MiMo-V2.5系列模型的推理系统全链路优化方案。据小米方面介绍，团队围绕Hybrid SWA+MoE+多模态的复合架构，系统性重构了从KVCache管理、分级缓存、前缀缓存到调度策略与Prefill/Decode链路的完整推理栈，KVCache存储压缩至同级方案的约1/7，在长序列场景下推理成本大幅下降——这是本次降价的核心技术基础。5月27日，MiMo-V2.5系列API完成永久降价，最高降幅达99%，不区分输入长度。（界面）

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。