记得12月写过,OpenAI的人评价DeepSeek,认为这家公司从research上与OpenAI的差距仅仅6个月。事实证明的确如此,今晚幻方发布推理模型R1正式版,在各项指标上与o1不相上下。而OpenAI的o1-preview也就是4个月前才发布,o1正式版也仅仅是1个月前的事情。
另一家国内顶尖模型的大佬曾经对我说,“o1”将是下一步国内一线实验室角逐的分水岭。谁能尽快做出自己的“o1”,谁才有资格继续留在牌桌(推理模型不仅是结果还是原料和引擎)。显然幻方已经拿到了一张门票(海外自然是OpenAI、谷歌、Anthropic),而国内马上还有1-2家发布自己的“o1”。
与此同时,今天豆包全量推送的端到端语音模型,在各种体验和性能上完全比肩GPT-4o高级语音模式,仅仅比OpenAI全量上线的时间晚了4个月!且上线即全量(OpenAI也就刚刚全量)。要知道谷歌上次刚刚发布的Gemini 2.0端到端多模态语音模型,也就是1个月前。如果只讨论实时语音,这件事有很多工程技巧,并不是完全基座模型能力决定,中国人一定卷的出来。但豆包这次是真正的语音文本端到端,而不是传统ASR+LLM+TTS级联。豆包的完整多模态(语音视频图像等),估计也已经在路上了。
另一个被大家低估的是Minimax-01,用我们嘉宾Y博的评价就是,“最近一段时间全球范围发布的最牛逼的预训练模型”,且直接开源,又是中国人为全球开源社区做出的巨大贡献。Minimax团队非常开放,专门安排了两位参与这次模型训练的技术大佬来我们星球分享,对这次最关键的通信瓶颈的解决、MoE规模化训练、以及最核心的线性注意力等方面,做详细解读(期待一下)
看完以上个人最大感触,国内与海外的差距的确在缩小,肉眼可见的速度。甚至看到了层次化的生态分布,比如幻方是前沿research探索的先锋;而豆包是商业化+场景加持下以爆款应用为导向;阶跃星辰和智谱在多模态/toB等都有各自特点(且有XX支持)。
为什么国内在资源有限的情况下可以做到上述成果?或许是最值得思考的问题:
1. 必须坦白讲,前面有人趟路的情况下,追起来是省力...无论是MoE、多模态、o1推理模型,都是海外先实现和发布,国内用很快的速度甚至1/10的成本快速复现。这本身没有高低之分,就是非常合理的策略。
2. 预训练到后训练+测试时计算的范式转换,的确给了窗口期。说到底,海外预训练的确撞墙了,他们也刚刚开始切换方向,我们连试错成本都省了...
3. 最难的依然是赶超。如果比拼前沿探索,说实话还是算力受限的。后来也确认了下,幻方公布的那个550万美金,只是实际训练成本的零头。我相信训练r1以及后面更大的V4,需要的算力依然是巨大的。幻方内部的状态也是缺卡。
4. o1到o3再到o4 o5,这条路暂时没看到天花板。如果这条路继续卷下去,其实对算力的需求是无穷无尽的...一点不比预训练少。而过去事实表明,只是硬件本身,并没有彻底锁住中国模型的进步。一方面国内资源提前做了储备,另一方面很多通信上的瓶颈等工程问题被国内团队陆续攻克了...(这点真的必须点赞)
因此在路线(scaling方向)相对确定、商业化前景逐渐清晰、资源积累又在持续加码的情况下,可以继续看好后面的国内模型。美国这次的AI封锁组合拳,先不说是否被特朗普延续,可能最大的漏洞就是AI本身的发展,超出了政客的预测能力,甚至产业界也很难清晰预判。国内其实有一大堆“绕”的方法...还是要乐观一点。
今天真格yusen发了一个朋友圈,“越来越多的行业会迎来自己的李世石时刻”。目前o系列这条路,就是要在一个个垂直行业达到“专家水平”。从Math、code开始,到法律、科研、金融、咨询等等,当垂直行业一个个拿下,那个模糊定义的AGI,可能也就慢慢接近实现了。
本文来源:信息平权,原文标题:《国内模型追的太快了...》