作者 | 刘宝丹
编辑 | 黄昱
作为国内最受追捧的AI独角兽之一,MiniMax在这波AI大模型浪潮中成为不可忽视的存在。
近日,MiniMax在上海举办了一场主题为“2024 MiniMax Link伙伴日”的活动,创始人闫俊杰分享了基于MOE(混合专家模型)+ Linear Attention(线性注意力)的新一代模型技术的应用,并展示了公司最新的音乐模型、视频模型的研发成果。
这是MiniMax第一次主动发声。在成立996天后,这家国内估值最高的AI独角兽公司试图讲清楚自己正在做的事情。
纵观全球,AI大模型仍处于激烈的技术竞赛当中,这也是MiniMax当前最重要的事情。
闫俊杰对华尔街见闻表示,“目前的阶段,最重要的东西还不是商业化,是真正地对技术到达广泛可用的程度。”
会上,MiniMax推出基于MOE+ Linear Attention的新一代模型技术。据闫俊杰介绍,在与GPT-4o同一代模型能力对比上,新一代模型处理10万token时效率可提升2-3倍,并且随着长度越长,提升越明显。
“相比于通用Transformer架构,新架构的原生线性计算复杂度大幅减少了大模型的训练和推理成本。在128K的序列长度下,新架构成本减少90%以上。”闫俊杰如是强调。
MiniMax是中国首个研发MoE大语言模型并持续在模型算法上做创新的公司,这背后体现的是公司对技术路径的判断。
闫俊杰表示,不管是做MOE还是Linear attention,还是其他的探索,本质上还是让同样的效果模型变得更快。“快意味着同样的算力可以变得更好,这是我们底层做研发的思路,除了Linear attention、MOE,可能还有一些其他的比较有价值的事,我们也在探索。”
同时,这也是MiniMax推出AI大模型产品和功能的支撑和底气。
MiniMax首次推出视频模型和音乐模型,由此,公司在模型产品的布局上囊括了文本、语音和视频,成为布局最全面的AI创业公司之一。
具体来看,MiniMax视频模型具有压缩率高、文本响应好和风格多样等优点,可生成原生高分辨率、高帧率视频。
闫俊杰表示,“视频这次确实取得很大的进展,我们内部来评测,包括跑一些分,应该比像国外Runway有更好的效果,这个东西只是我们的第一版,很快还会有更新的版本。”
MiniMax的第一款音乐模型,可以合成纯音乐,为制作人快速构建歌曲的基本结构,由歌手自由演绎主唱或和声部分。据悉,MiniMax语音模型已实现对粤语、日语、韩语、西班牙语等多语种支持的升级。
目前,MiniMax音乐生成模型与视频生成模型已经在开放平台和海螺AI网页版上线。闫俊杰透露,abab 7系列文本模型将于未来数周内正式发布,并采用新一代创新技术。
对于外界最关注的商业化问题,MiniMax也给出了清晰的思路。
闫俊杰表示,整个公司的商业化基本上分成两个形式,一个是开放平台,现在已经有两千多家的客户; 第二点,在公司产品里面也有广告的机制。
对于视频模型的商业化考虑,他表示,再等一两周,更新后达到一个更加满意的状态之后,可能会考虑一些商业化。
一个重要的参考标准还是产品能力。MiniMax国际业务总经理盛静远表示,对国内市场2B或者工具类,现在的思考是不断地把偏工具类的产品,比如海螺,打磨出新的功能,直到有用户粘性。
对MiniMax来说,用户粘性是考虑ROI和retention的前提条件。显然现在还不是时候。
“ROI会有转起来的一天,但不是今天的产品形态。”盛静远直言,今天的产品形态,作为一个普通的消费者,没有任何的忠诚度可言,一旦收费,消费者就可以换到另外一个产品,这个模式是不成立的。
在经过了一年多的技术狂奔后,AI大模型创业公司已经开始进入产品竞赛阶段,随着MiniMax多模态产品的发布,也将行业的竞争带入新阶段。
以下为对话实录(经编辑):
问:最近《黑神话悟空》很火,MiniMax会把AI生成视频应用在游戏里面吗?
闫俊杰:《黑神话悟空》是传统的建模渲染的方式,基于视频生成的方式至少提供一种可能性,并且原则上来说上限会更高,基于渲染的方式,进步速度很慢。
生成视频跟生成文本是一样的,2年前可能完全不可用,现在变得可用。现在大家看到的效果,不管是我们做的,还是可灵做的,还是Runway做的,还是Open AI做的Sora,都只是一个开始,这只是第一年,接下来的进步速度一定会变得非常快。
我不太知道能否替代掉传统的渲染引擎,但是至少能够提供一种可能性,因为进步速度快,越长期看,进步越快的东西就越好。
问:有人评价,公司AI智能的算法还是比较厉害的,请介绍一下生成视频算法的事情。
闫俊杰:视频最主要解决的问题是这样的,比如说为什么我们的推出,比可灵要晚一两个月,核心是我们在解决一个更难的技术问题,如何能够原生的训练算力比较高的东西,这件事情为什么这么难?在训练视频生成能力的时候,也需要先把视频变成一些token,视频变成的token会非常的长,非常的长之后越长复杂度就越高,之前的方法是平方的关系,我们其实算法上主要干的事是说怎么样把复杂度往下降低一些。压缩率变得更高,这个事花了我们很多的精力,就晚了一两个月。
现在也看到了收获,当你真的把算法变得更好的时候,确实是有一个更好的效果。不管是视频、文本、声音,核心的东西都不是说找一个算法提升5%、10%,比较重要的是找一个东西能不能提升几倍,如果能提升几倍就一定要做出来,如果只提升5%就不太值得做,这个就是我们做研发的思路。
问:后续是在哪个方向迭代?
闫俊杰:数据、算法本身,包括更加方便使用的细节,比如说现在只提供了文生视频,比如图生视频,文+图生成视频,可编辑的可控性这个事都会陆续出来。
问:今年视频生成赛道非常激烈,MiniMax为什么要做视频生成,对你们整个布局来说有什么必要性吗?然后挑战和难点。
闫俊杰:在人类社会大模型的核心意义做更好的信息处理,大部分的信息体现在多模态的内容里面,而不是体现在文字上。
为了能够有高用户覆盖度和使用深度,唯一的办法是能够输出动态的内容,这是一个非常核心的判断。之前我们先做出来文字,又做出来声音,其实很早做出来了图片,只是现在技术变得更强,把视频也做出来。这个路线是一以贯之的,一定要能够做多模态。
问:挑战和难点呢?
闫俊杰:首先这件事还挺难的,如果不难,不会全球只有两三家公司能做得很好。
难点在于有些独特的东西,然后有些可以复用的东西。独特的东西在于视频,工作复杂度比做文本更难,因为视频的context的文本天然很长,比如,一个视频是千万的输入和输出,这天然就是一个很难的处理。其次,视频量很大,比如看一个5秒的视频有几兆,但5秒看的文字可能都不到1K,这是几千倍的存储差距。
挑战在于,之前基于文本建的这套底层基础设施怎么来处理数据,怎么来清洗数据,怎么来标注,对视频上都不太适用,意味着基础设施也需要升级。
还有的话是耐心,做文字有很多开源的东西,做视频开源的东西没那么多,很多东西需要重新来做,需要付出的耐心也更大。
问:关于AI出海,想问一下MiniMax你们怎么看出海这个市场的?
闫俊杰:其实我们国内用量不比海外小,但是我不太知道为什么大家都只觉得我们出海做得好,其实我们的技术起来非常领先的,但大家总觉得我们产品做得好,我不太理解为什么会这样。
问:最近快手有推出飞船,整个产品风格有点类似于星野,从MiniMax的角度来说,国内还比较卷,怎么能够把我们自身的壁垒提升?
闫俊杰:这个事就是一个发展的客观规律,作为一家小的创业公司来说,我们在竞争中打不赢,那就应该被淘汰,其实也没有其他的选择。
我们能做的就是,觉得有可能变强的事无限地放大,两点:一是技术如何提升,二是如何跟用户做更好的共创,也就只有这两点,这两点都需要一些非常关键的判断,需要靠非常长期的积累。
问:不知道方不方便透露投资人对MiniMax有什么期待?包括阿里和腾讯这边,是比较在乎商业化的进展还是技术方面的进展?
闫俊杰:实际的情况是投资人不是一个人,投资人是一个组织,一个组织意味着大部分时候没有一个统一的观点,真实的情况就是这样。
我们还是一家很小的公司,公司各种各样的数据,尽管已经提升了很多,在某些领域里面有些优势,相比这些大公司非常成熟的业务来说,占比都是非常小的,甚至可以说是不值一提。我觉得核心不是他们怎么看,核心还是我们自己怎么样做得更好。
问:星野和海螺的用户画像分别是什么样的人?
闫俊杰:星野是一个很独特的内容平台,是完全基于AI的一套内容社区,这个事在全球范围都是挺独特的。
抖音、小红书、B站、知乎都是一个社区,至少在AI内容社区这件事上星野还是做得比较靠前。AI本质上是一种新的内容交互形态。
星野的用户画像二三线城市为主,年龄在17-24/25岁之间。海螺用户画像更泛一些,海螺本来就是工具型的产品。
问:目前很多星野或者Talkie上面的用户,对产品的需求是想要一个很帅气的对象陪伴我,但目前智能体,或者虚拟的角色很难进行深度的聊天和陪伴,会导致用户的流失。像这样一类的产品,会如何应对这样一个问题?
闫俊杰:现在确实有这样的问题,本质上就是模型不够好,当前的模型没有很长的记忆,理解不了特别复杂的指令就会这样。社区是所有的互联网产品里面最难做的产品,这件事需要一步一步演化,不是一蹴而就。
问:之前MiniMax一直拿的是美元基金的钱比较多,后面哪些钱可以入场?如果这边融资困难的话,会做哪些应对?
盛静远:一家公司真正的价值在于自身创造商业价值。今天讲的“快就是好”,也是在同等计算GPU的条件下,尽可能训练更多的轮次,训练更大的数据。经过几次科研的突破,我们能以比较有限的资源做出一个在国际上,也能在第一梯队的多模态的表现,这个我们目前还是比较骄傲的。
作为所有中国大模型公司里面,基本上少数几个能讲商业化,能讲变现,能讲产品跟模型一起驱动,甚至很有可能在比较短的时间内实现自负盈亏以及盈利,这个是一个最有希望说,也最sustainable的一个方式。
最核心的还是技术突破,产品是技术突破的体现,这个产品能够最终实现商业化,来反哺到后续的技术投入,这是公司真正转起来的标志,可能我们现在在半山腰的状态,如果做得比较成功,很快就能达到一个正向的循环。
问:怎么判断大模型技术,有什么通用的指标吗?
闫俊杰:技术好坏怎么判断这个事很难。我们也经历过,当评价标准不够好的时候,模型迭代有时候也会误入歧途。我们目前用的方式,有可能也不是对的,至少我认为比较可能的方式是这样的。
我们的开发平台大概有3万多个开发者,付费的客户就有几千家,有些客户对场景看重,要求保证产品效果,我基于这样的场景构建一个测试级,还是比较客观的,原因是这个测试级上所有的国产化模型都比GPT4差得很多,你看其他的排行榜基本上GPT4都要排到中间去了,但是在我们的排行榜上确实GPT-4o排在最靠前,包括我们的模型在内,所有的模型都跟GPT4有本质上的差距,而且越难的问题差距越大,这个是我们的评估方式。
至少按照这个评估方式来看,我觉得我们的提升空间还是挺大的。这个事每个公司有自己不同的思考。