小米突发新模型，主打“极致性价比”，罗福莉：“这只是我们AGI图线路上的第二步”

2025-12-17 10:49

512

0.1美元/百万token，速度150 tokens/秒！小米突发新模型MiMo-V2-Flash，以73.4%的编程高分媲美DeepSeek-V3.2。罗福莉直言：“这只是我们AGI路线图上的第二步。”大摩分析，小米意图通过这一高性能模型，深度重塑其庞大的“人车家”全生态。

11个小时前，小米深夜“突袭式”发布并开源了其最新的专家混合架构（MoE）大语言模型MiMo-V2-Flash。该模型总参数量达3090亿，活跃参数为150亿，采用对开发者友好的MIT开源协议，基础版权重也已经在Hugging Face上发布。

小米MiMo团队负责人罗福莉（Fuli Luo）在社交平台上明确表示：“MiMo-V2-Flash已经上线。这只是我们AGI路线图上的第二步。”这一表态凸显了小米在AI领域的长远规划和技术雄心。

从市场影响来看，MiMo-V2-Flash的入局可能搅动现有开源AI模型的竞争格局。其官方公布的每百万输入token 0.1美元、输出token 0.3美元的极低成本，结合高达150 tokens/秒的推理速度，为开发者和企业提供了极具吸引力的选择，或将加速高性能AI技术在更广泛场景的应用和普及，尤其是对其庞大的“手机 x AIoT”生态系统形成强大赋能。

性能媲美DeepSeek-V3.2，并且“极具性价比”

MiMo-V2-Flash在多个权威基准测试中展现了强大的实力，其性能表现足以和部分顶尖的开源及闭源模型同台竞技。

根据小米官方公布的数据，在衡量编程能力的SWE-bench Verified测试中，MiMo-V2-Flash取得了73.4%的得分，超越了所有已知的开源模型，并接近顶级闭源模型的水平。

在AIME 2025数学竞赛和GPQA-Diamond科学知识测试等考验推理能力的项目中，该模型也位列开源模型前两名。摩根士丹利的研报图表亦显示，MiMo-V2-Flash在综合性能上与DeepSeek-V3.2等主流大模型相比具有竞争力。

在愈发重要的智能体（Agent）任务上，MiMo-V2-Flash同样表现出色。数据显示，其在τ²-Bench分类得分中，通信、零售、航空等多个类别均获得高分，证明其具备理解复杂任务逻辑和执行多轮交互的能力。

小米方面表态显示，该模型的高性能与150 tokens/秒的推理速度，加上极低的运营成本，使其成为现有最高性价比的高性能模型之一。目前，该模型已在API平台限时免费开放，并以MIT开源协议在Hugging Face上发布了基础版权重。

“极致性价比”背后的技术创新：解锁效率与长文本能力

MiMo-V2-Flash之所以能在保持高性能的同时实现低成本和高效率，得益于其在模型架构和训练方法上的多项关键技术创新。

首先，是“混合滑动窗口注意力机制”（Hybrid Sliding Window Attention）。小米采用了一种5:1的混合比例，即每5层滑动窗口注意力（SWA）搭配1层全局注意力，将KV缓存（一种用于存储中间结果的内存）的存储量减少了近6倍，同时依然支持高达256k的超长上下文窗口。

罗福莉（Fuli Luo）在其X帖子中分享了工程细节：“我们最终选择了混合SWA。它简单、优雅，并且在我们的内部基准测试中，其长上下文推理能力优于其他线性注意力变体。”她特别指出一个反直觉的发现，即128个token的窗口大小是“最佳选择”，盲目扩大到512反而会导致性能下降，并强调“sink values是不可或缺的”。

其次，是轻量级多Token预测（Lightweight Multi-Token Prediction, MTP）。该技术使模型能一次并行预测多个token，而非传统的逐字生成，从而将推理速度提升2至2.6倍。

罗福莉透露：“通过3层MTP，我们观察到平均接受token数超过3个，编码任务速度提升约2.5倍。”她补充说，这项技术有效解决了GPU的空闲时间问题，尽管因项目周期紧张此次未能完全整合进强化学习（RL）循环，但小米已将3层MTP开源，供开发者使用。

今年11月，曾效力DeepSeek的罗福莉在X上高调宣布正式加入小米，出任MiMo团队负责人。小米MiMo是小米推进大模型研发的核心招牌，随着罗福莉的官宣，小米MiMo也被一并明确，剑指最前沿——空间智能。

训练“黑科技”：1/50算力实现性能对齐

在训练阶段，小米采用了业界领先的技术以最大化效率。模型在预训练阶段使用了FP8混合精度技术，在27万亿token的数据上完成训练。

更具突破性的是在后训练阶段引入的多教师在线策略蒸馏（Multi-teacher Online Policy Distillation, MOPD）框架。据小米介绍，该方法借鉴了Thinking Machine的On-Policy Distillation思路，让学生模型在训练时能从多个专家教师模型处获得密集的奖励信号。其最显著的优势在于效率，仅需传统SFT（监督微调）与强化学习相结合方法的1/50算力，就能让学生模型达到教师模型的性能峰值。

罗福莉指出，这一框架为构建一个“自我强化循环系统”奠定了基础，即今天的学生模型在进化后可以成为明天更强的教师模型，从而实现模型的持续、高效迭代。

小米的AI版图：从手机到AGI

MiMo-V2-Flash的发布，并非一次孤立的技术展示，而是小米AI战略的重要组成部分。正如罗福莉所言，这只是其AGI路线图的“第二步”，暗示了后续将有更深入的布局。

此举清晰地表明了小米正全力将AI打造为其核心竞争力之一。据摩根士丹利发布的研报观点称，此举“展示了小米对AI研发的承诺”，并预计该公司未来将在云端AI和边缘AI两方面取得更多实质性进展。而强大的自研AI底层能力，将为其手机、IoT设备乃至新能源汽车等硬件产品带来独特的智能化体验，构筑更深的生态护城河。

摩根士丹利认为，MiMo-V2-Flash的推出，不仅可能重塑开源AI模型市场格局，更揭示了小米意图通过自研AI技术深度赋能其“人车家”全生态的战略野心。

十四年前，小米手机以1999元的价格重新定义了旗舰智能手机市场。如今，小米似乎希望通过MiMo-V2-Flash，以其卓越的性能和颠覆性的成本，为开源AI领域带来一个新的“小米时刻”。

体验模型可戳：https://aistudio.xiaomimimo.com/#/

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。