MiniMax新旗舰M3发布！自己干了12小时复现获奖论文，三条科技树同时点满

量子位

06/01 15:29

MiniMax在启动科创板IPO辅导后，推出新一代旗舰模型M3，首次同时实现顶尖编程能力、1M超长上下文与原生多模态。M3可独立复现ICLR获奖论文，12小时内跑通核心实验。通过全新稀疏注意力机制与交互式训练框架，其Agent与代码优化能力显著提升。

MiniMax启动科创板IPO辅导后，新一代旗舰模型M3也正式登场。

刚刚发布的M3，把前沿Coding能力、1M超长上下文、原生多模态这三条科技树，同时点满。

MiniMax称，M3是目前的开源模型当中，唯一能同时做到这三点的。

它在SWE-Bench Pro上超过了GPT-5.5和Gemini 3.1 Pro，接近Claude Opus 4.7。

而在面向自主Agent的端到端评测Claw-Eval上，M3拿到了最高分。

为了证明三种能力确实同时在线，MiniMax团队把一篇ICLR 2025获奖论文丢给M3独立复现——

论文又长又硬、图文并茂，要看懂里面的曲线图、数据、公式得靠多模态；
论文、代码、实验日志一次性塞进窗口得靠长上下文；
长线程甚至并发地跑完复现得靠编程和agent能力。

结果M3独立跑了接近12小时，最终成功把论文的核心实验全部跑通。

现在，MiniMax M3已经可以在MiniMax Code、Token Plan和API服务中体验到。

长上下文、编程、多模态同时在线

和M系列以往的路径相同，M3同时点满长上下文、Coding和多模态这三条科技树，依然是在向Coding和Agent方向重点发力。

MiniMax用几道真题测了它的实际表现。

FP8矩阵乘（GEMM）优化是大模型推理里优化难度最高的环节之一，资深工程团队通常要集中投入1-2周才能在NVIDIA Hopper架构上写出一个生产级kernel。

MiniMax把这道题丢给M3，起点只有一份任务描述、一个benchmark脚本、一个跑不起来的Triton骨架，没有任何参考实现可以抄。

随后约24小时，M3自己走完了从baseline到生产级优化的全部路径，其间完成了147次benchmark提交、1959次工具调用。

并且，性能瓶颈诊断、CUDA Graph集成、persistent kernel重写等一系列步骤中，M3在每一步都拿benchmark反馈来验证自己。

最终经过6轮标志性优化，Hopper FP8硬件峰值利用率从首版7.6%干到了71.3%，实现9.4倍加速。

执行过程本身也值得关注。

其余模型大多在前30次提交内就不再进展、主动退出了，M3的最优解出现在第145次提交，在那之前它经历了多个性能平台期，但一直在继续尝试不同方向。

除了优化算子，M3还能独立复现论文。

MiniMax把一篇ICLR 2025 Outstanding Paper Award获奖论文扔给它，这篇论文研究的是大模型微调过程中的学习动力学。

论文本身又长又硬、图文并茂，模型需要看懂里面的曲线图、数据、公式然后编写代码并执行。

这个任务重，M3自主运行接近12小时，产出18次commit与23张实验图表。

它不仅跑通了核心实验，成功吻合了SFT阶段的预测概率变化趋势，还清晰观测到DPO实验重点讨论的squeezing效应，并顺利验证了原论文提出的Extend缓解方法。

中途遇到跑不通的实验，它会自己进行诊断，碰到结果对不上的地方就自己调整，整个过程始终没有人工介入。

除此之外，M3还能给其他模型当教练。

MiniMax在PostTrainBench上让它接手四个只完成预训练的Base模型，任务是在12小时内自主完成数据合成、训练、评测、迭代的全部流程，最终让这些模型在数学推理、工具调用、科学知识推理、代码生成等任务上具备基本能力。

这道题没有清晰的反馈结构，也没有标准答案，M3需要自己判断合成什么数据、选什么训练策略，并根据每轮评测结果，决定下一步怎么调。

它先分析每个Base模型在各任务上的短板，再决定为每个方向合成哪些数据，跑完训练拿到评测结果之后，再自己判断哪个任务还差得远、哪个方向的数据质量不够、下一轮应该往哪里加力。

如果发现某个任务的数据覆盖不足，它会重新设计合成方案；某轮训练效果不达预期，它会调整策略再跑一轮。

不同轮次的评测结果出来之后，它会自己对比差异、总结规律、决定下一步。

整个12小时它都在自己拿主意，没有人告诉它该怎么做。

它最终得分0.37，略低于Opus 4.7（0.42）和GPT-5.5（0.39），但明显领先其余模型。

引入全新注意力机制

要解决更复杂的Agent任务，context scaling是绕不开的挑战。

MiniMax为此从最底层的注意力机制入手，自己做了一套新的稀疏注意力架构，叫MSA（MiniMax Sparse Attention）。

全注意力机制有个先天问题，它的计算复杂度随上下文长度平方级增长。上下文越长，计算量爆炸得越快。

业内通常靠增加初筛阶段来缓解这个问题，但精度和效率很难兼顾。

MSA的做法分两步。

第一步是Index Attention，用轻量的索引query对KV块做Block Max Pool，选出Top-k的高相关块；
第二步，再对选出来的块做完整的Sparse Attention计算。

跟DSA、MoBA等方案相比，MSA可以更精确地为KV分块，实现更高的有效上下文覆盖。

算子层面，MiniMax也做了专门优化，采用以KV块为外层聚合命中query的KV outer gather Q方式，每块只读一次、访存连续。

在M3的head配比下，这种模式的计算访存比显著优于通行方法，比开源的Flash-Sparse-Attention、FlashMoBA快4倍以上。

效果上，在1M上下文下，M3每token的计算量只有上代模型的1/20，prefilling阶段提速超过9倍，decoding阶段提速超过15倍，且绝大部分能力与全注意力持平。

多模态方面，M3从预训练第一步就做图文混合训练，不同模态数据的语义空间从一开始就在同一套框架下融合。

MiniMax做了大量实验，发现文本和图像在序列中交替排列的interleaved data，对模型性能的提升比通常认为的更关键。

为了大规模获取这类数据，MiniMax重构了整套数据管线，训练数据Token规模因此可以提升到100万亿量级。

Coding能力这边，MiniMax认为今天模型的Coding水平，越来越取决于能否用真实世界的用户逻辑来训练。

大多数代码Agent的训练和评测建立在单轮任务的假设上，但真实场景里用户往往在同一个session里持续协作。

为了缩小这个差距，MiniMax构建了一套交互式用户模拟器框架，模拟真实开发者在协作过程中的行为模式，让模型在训练阶段就接触到更接近生产环境的交互场景。

至于更多技术细节，MiniMax预告其技术报告和开源模型权重将在10天内更新，感兴趣的话可以持续关注。

本文来源：量子位

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

MiniMax新旗舰M3发布！自己干了12小时复现获奖论文，三条科技树同时点满

长上下文、编程、多模态同时在线

引入全新注意力机制

解禁日盘后紧急启动19亿美元融资：MiniMax以折价配股+零息可转债打响算力"续命战"

4100亿跌到1000亿，MiniMax怎么了？

MiniMax高盛电话会：对今年10亿美元ARR充满信心，模型优势在“组织敏捷性”，与国产芯片高度集成

MiniMax M3 实测：第一流的模型，已经对执行层动手了

智谱万亿，该重估MiniMax了