成立996天的MiniMax主动揭开神秘面纱

2024/09/04 10:33

MiniMax交考卷。

作者 | 刘宝丹

编辑 | 黄昱

作为国内最受追捧的AI独角兽之一，MiniMax在这波AI大模型浪潮中成为不可忽视的存在。

近日，MiniMax在上海举办了一场主题为“2024 MiniMax Link伙伴日”的活动，创始人闫俊杰分享了基于MOE（混合专家模型）+ Linear Attention（线性注意力）的新一代模型技术的应用，并展示了公司最新的音乐模型、视频模型的研发成果。

这是MiniMax第一次主动发声。在成立996天后，这家国内估值最高的AI独角兽公司试图讲清楚自己正在做的事情。

纵观全球，AI大模型仍处于激烈的技术竞赛当中，这也是MiniMax当前最重要的事情。

闫俊杰对华尔街见闻表示，“目前的阶段，最重要的东西还不是商业化，是真正地对技术到达广泛可用的程度。”

会上，MiniMax推出基于MOE+ Linear Attention的新一代模型技术。据闫俊杰介绍，在与GPT-4o同一代模型能力对比上，新一代模型处理10万token时效率可提升2-3倍，并且随着长度越长，提升越明显。

“相比于通用Transformer架构，新架构的原生线性计算复杂度大幅减少了大模型的训练和推理成本。在128K的序列长度下，新架构成本减少90%以上。”闫俊杰如是强调。

MiniMax是中国首个研发MoE大语言模型并持续在模型算法上做创新的公司，这背后体现的是公司对技术路径的判断。

闫俊杰表示，不管是做MOE还是Linear attention，还是其他的探索，本质上还是让同样的效果模型变得更快。“快意味着同样的算力可以变得更好，这是我们底层做研发的思路，除了Linear attention、MOE，可能还有一些其他的比较有价值的事，我们也在探索。”

同时，这也是MiniMax推出AI大模型产品和功能的支撑和底气。

MiniMax首次推出视频模型和音乐模型，由此，公司在模型产品的布局上囊括了文本、语音和视频，成为布局最全面的AI创业公司之一。

具体来看，MiniMax视频模型具有压缩率高、文本响应好和风格多样等优点，可生成原生高分辨率、高帧率视频。

闫俊杰表示，“视频这次确实取得很大的进展，我们内部来评测，包括跑一些分，应该比像国外Runway有更好的效果，这个东西只是我们的第一版，很快还会有更新的版本。”

MiniMax的第一款音乐模型，可以合成纯音乐，为制作人快速构建歌曲的基本结构，由歌手自由演绎主唱或和声部分。据悉，MiniMax语音模型已实现对粤语、日语、韩语、西班牙语等多语种支持的升级。

目前，MiniMax音乐生成模型与视频生成模型已经在开放平台和海螺AI网页版上线。闫俊杰透露，abab 7系列文本模型将于未来数周内正式发布，并采用新一代创新技术。

对于外界最关注的商业化问题，MiniMax也给出了清晰的思路。

闫俊杰表示，整个公司的商业化基本上分成两个形式，一个是开放平台，现在已经有两千多家的客户；第二点，在公司产品里面也有广告的机制。

对于视频模型的商业化考虑，他表示，再等一两周，更新后达到一个更加满意的状态之后，可能会考虑一些商业化。

一个重要的参考标准还是产品能力。MiniMax国际业务总经理盛静远表示，对国内市场2B或者工具类，现在的思考是不断地把偏工具类的产品，比如海螺，打磨出新的功能，直到有用户粘性。

对MiniMax来说，用户粘性是考虑ROI和retention的前提条件。显然现在还不是时候。

“ROI会有转起来的一天，但不是今天的产品形态。”盛静远直言，今天的产品形态，作为一个普通的消费者，没有任何的忠诚度可言，一旦收费，消费者就可以换到另外一个产品，这个模式是不成立的。

在经过了一年多的技术狂奔后，AI大模型创业公司已经开始进入产品竞赛阶段，随着MiniMax多模态产品的发布，也将行业的竞争带入新阶段。

以下为对话实录（经编辑）：

问：最近《黑神话悟空》很火，MiniMax会把AI生成视频应用在游戏里面吗？

闫俊杰：《黑神话悟空》是传统的建模渲染的方式，基于视频生成的方式至少提供一种可能性，并且原则上来说上限会更高，基于渲染的方式，进步速度很慢。

生成视频跟生成文本是一样的，2年前可能完全不可用，现在变得可用。现在大家看到的效果，不管是我们做的，还是可灵做的，还是Runway做的，还是Open AI做的Sora，都只是一个开始，这只是第一年，接下来的进步速度一定会变得非常快。

我不太知道能否替代掉传统的渲染引擎，但是至少能够提供一种可能性，因为进步速度快，越长期看，进步越快的东西就越好。

问：有人评价，公司AI智能的算法还是比较厉害的，请介绍一下生成视频算法的事情。

闫俊杰：视频最主要解决的问题是这样的，比如说为什么我们的推出，比可灵要晚一两个月，核心是我们在解决一个更难的技术问题，如何能够原生的训练算力比较高的东西，这件事情为什么这么难？在训练视频生成能力的时候，也需要先把视频变成一些token，视频变成的token会非常的长，非常的长之后越长复杂度就越高，之前的方法是平方的关系，我们其实算法上主要干的事是说怎么样把复杂度往下降低一些。压缩率变得更高，这个事花了我们很多的精力，就晚了一两个月。

现在也看到了收获，当你真的把算法变得更好的时候，确实是有一个更好的效果。不管是视频、文本、声音，核心的东西都不是说找一个算法提升5%、10%，比较重要的是找一个东西能不能提升几倍，如果能提升几倍就一定要做出来，如果只提升5%就不太值得做，这个就是我们做研发的思路。

问：后续是在哪个方向迭代？

闫俊杰：数据、算法本身，包括更加方便使用的细节，比如说现在只提供了文生视频，比如图生视频，文+图生成视频，可编辑的可控性这个事都会陆续出来。

问：今年视频生成赛道非常激烈，MiniMax为什么要做视频生成，对你们整个布局来说有什么必要性吗？然后挑战和难点。

闫俊杰：在人类社会大模型的核心意义做更好的信息处理，大部分的信息体现在多模态的内容里面，而不是体现在文字上。

为了能够有高用户覆盖度和使用深度，唯一的办法是能够输出动态的内容，这是一个非常核心的判断。之前我们先做出来文字，又做出来声音，其实很早做出来了图片，只是现在技术变得更强，把视频也做出来。这个路线是一以贯之的，一定要能够做多模态。

问：挑战和难点呢？

闫俊杰：首先这件事还挺难的，如果不难，不会全球只有两三家公司能做得很好。

难点在于有些独特的东西，然后有些可以复用的东西。独特的东西在于视频，工作复杂度比做文本更难，因为视频的context的文本天然很长，比如，一个视频是千万的输入和输出，这天然就是一个很难的处理。其次，视频量很大，比如看一个5秒的视频有几兆，但5秒看的文字可能都不到1K，这是几千倍的存储差距。

挑战在于，之前基于文本建的这套底层基础设施怎么来处理数据，怎么来清洗数据，怎么来标注，对视频上都不太适用，意味着基础设施也需要升级。

还有的话是耐心，做文字有很多开源的东西，做视频开源的东西没那么多，很多东西需要重新来做，需要付出的耐心也更大。

问：关于AI出海，想问一下MiniMax你们怎么看出海这个市场的？

闫俊杰：其实我们国内用量不比海外小，但是我不太知道为什么大家都只觉得我们出海做得好，其实我们的技术起来非常领先的，但大家总觉得我们产品做得好，我不太理解为什么会这样。

问：最近快手有推出飞船，整个产品风格有点类似于星野，从MiniMax的角度来说，国内还比较卷，怎么能够把我们自身的壁垒提升？

闫俊杰：这个事就是一个发展的客观规律，作为一家小的创业公司来说，我们在竞争中打不赢，那就应该被淘汰，其实也没有其他的选择。

我们能做的就是，觉得有可能变强的事无限地放大，两点：一是技术如何提升，二是如何跟用户做更好的共创，也就只有这两点，这两点都需要一些非常关键的判断，需要靠非常长期的积累。

问：不知道方不方便透露投资人对MiniMax有什么期待？包括阿里和腾讯这边，是比较在乎商业化的进展还是技术方面的进展？

闫俊杰：实际的情况是投资人不是一个人，投资人是一个组织，一个组织意味着大部分时候没有一个统一的观点，真实的情况就是这样。

我们还是一家很小的公司，公司各种各样的数据，尽管已经提升了很多，在某些领域里面有些优势，相比这些大公司非常成熟的业务来说，占比都是非常小的，甚至可以说是不值一提。我觉得核心不是他们怎么看，核心还是我们自己怎么样做得更好。

问：星野和海螺的用户画像分别是什么样的人？

闫俊杰：星野是一个很独特的内容平台，是完全基于AI的一套内容社区，这个事在全球范围都是挺独特的。

抖音、小红书、B站、知乎都是一个社区，至少在AI内容社区这件事上星野还是做得比较靠前。AI本质上是一种新的内容交互形态。

星野的用户画像二三线城市为主，年龄在17-24/25岁之间。海螺用户画像更泛一些，海螺本来就是工具型的产品。

问：目前很多星野或者Talkie上面的用户，对产品的需求是想要一个很帅气的对象陪伴我，但目前智能体，或者虚拟的角色很难进行深度的聊天和陪伴，会导致用户的流失。像这样一类的产品，会如何应对这样一个问题？

闫俊杰：现在确实有这样的问题，本质上就是模型不够好，当前的模型没有很长的记忆，理解不了特别复杂的指令就会这样。社区是所有的互联网产品里面最难做的产品，这件事需要一步一步演化，不是一蹴而就。

问：之前MiniMax一直拿的是美元基金的钱比较多，后面哪些钱可以入场？如果这边融资困难的话，会做哪些应对？

盛静远：一家公司真正的价值在于自身创造商业价值。今天讲的“快就是好”，也是在同等计算GPU的条件下，尽可能训练更多的轮次，训练更大的数据。经过几次科研的突破，我们能以比较有限的资源做出一个在国际上，也能在第一梯队的多模态的表现，这个我们目前还是比较骄傲的。

作为所有中国大模型公司里面，基本上少数几个能讲商业化，能讲变现，能讲产品跟模型一起驱动，甚至很有可能在比较短的时间内实现自负盈亏以及盈利，这个是一个最有希望说，也最sustainable的一个方式。

最核心的还是技术突破，产品是技术突破的体现，这个产品能够最终实现商业化，来反哺到后续的技术投入，这是公司真正转起来的标志，可能我们现在在半山腰的状态，如果做得比较成功，很快就能达到一个正向的循环。

问：怎么判断大模型技术，有什么通用的指标吗？

闫俊杰：技术好坏怎么判断这个事很难。我们也经历过，当评价标准不够好的时候，模型迭代有时候也会误入歧途。我们目前用的方式，有可能也不是对的，至少我认为比较可能的方式是这样的。

我们的开发平台大概有3万多个开发者，付费的客户就有几千家，有些客户对场景看重，要求保证产品效果，我基于这样的场景构建一个测试级，还是比较客观的，原因是这个测试级上所有的国产化模型都比GPT4差得很多，你看其他的排行榜基本上GPT4都要排到中间去了，但是在我们的排行榜上确实GPT-4o排在最靠前，包括我们的模型在内，所有的模型都跟GPT4有本质上的差距，而且越难的问题差距越大，这个是我们的评估方式。

至少按照这个评估方式来看，我觉得我们的提升空间还是挺大的。这个事每个公司有自己不同的思考。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

成立996天的MiniMax主动揭开神秘面纱

黄仁勋：公司手头有大量H20订单等待发货，预计很快将获得出口许可证

杨立昆、朱啸虎不看好的赛道，正在海外悄悄赚钱

华为首个开源大模型来了！Pro MoE 720亿参数，4000颗昇腾训练

实测Kimi首个Agent：智能体与模型之间的区隔消失了？

“六小虎”抢滩大模型第一股