DeepSeek研究员在线爆料:R1训练仅用两到三周,春节期间观察到R1 zero强大进化

AI寒武纪
从爆料中可以看出,RL尚处早期,性能提升远未见顶;跨领域测试泛化能力,拒绝“记忆投机”;从语言模型到数学证明,RL正向高阶推理迈进。

刚刚我注意到DeepSeek研究员Daya Guo回复了网友有关DeepSeek R1的一些问题,以及接下来的公司的计划,只能说DeepSeek的R1仅仅只是开始,内部研究还在快速推进,DeepSeek 的研究员过年都没歇,一直在爆肝推进研究,接下来DeepSeek还有大招

事情是这样的,2月1号,大年初四Daya Guo发了一条推文,透露了春节期间让他最兴奋的事情,亲眼见证了 R1-Zero 模型性能曲线的 “持续增长”,并且直言感受到了 强化学习(RL)的强大力量!这一下子就点燃了网友们的好奇心,大家纷纷跑去围观提问(太拼了,deepseek研究员过年都在爆肝训练模型)

以下我来帮大家还原一下Daya Guo与网友对话:

网友A @PseudoProphet: “大佬,想问下这个性能持续提升能持续多久呢?现在是早期阶段吗?感觉DeepSeek的RL模型是不是像语言模型里的GPT-2一样刚起步?还是说已经到GPT-3.5那种比较成熟的阶段,快要遇到瓶颈了?”

这个问题问的相当犀利啊,直接关系到DeepSeek RL技术的潜力!Daya Guo 的回复也十分坦诚:

Daya Guo : “我觉得我们还处于非常早期的阶段,RL 领域还有很长的路要探索。但我相信今年会看到显著的进展”

划重点! “非常早期”, “很长的路要探索”, “今年会有显著进展”!这几个关键词信息量巨大。这意味着,DeepSeek 认为他们在RL领域仍然有巨大的进步空间,R1 现在的成绩可能只是冰山一角,未来可期啊!

紧接着,另一位网友 @kaush_trip (Cheeku Tripathi)抛出了一个更专业的问题,直击模型能力的核心:

网友B @kaush_trip: “基于 R1-Zero 的性能,您如何评估模型是真的具备了 泛化能力,还是仅仅 记忆了状态转换和奖励 ?”

这个问题问的非常到位!毕竟现在很多模型看起来很强大,但实际上只是在训练数据上“死记硬背”,换个环境就拉胯。DeepSeek R1 到底是不是真材实料呢?

Daya Guo : “我们使用 RL prompt 未覆盖的领域的基准 来评估泛化能力。目前来看,它 似乎具备泛化能力”

“RL prompt 未覆盖的领域” 这句话是关键!这意味着 DeepSeek 不是用训练数据来“作弊”评估,而是用模型 从未见过 的新场景来测试,这才能真正体现模型的泛化水平。Daya Guo 用 “似乎具备” 这种严谨的措辞,也更显得真实可信

接下来,一位ID名为 @teortaxesTex 的网友,DeepSeek的忠实粉丝(备注里都写着“DeepSeek鲸鱼啦啦队”),他从DeepSeek V3 技术报告入手,提出了一个关于 模型训练时间 的问题:

网友C @teortaxesTex: “如果不是秘密的话:这次 RL 训练跑了多久?感觉你们早在 12 月 10 号就有了 R1 或者至少是 R1-Zero,因为 V3 技术报告里提到 V2.5 模型用了 R1 的知识蒸馏,而且 V2.5-1210 的分数和现在的模型一样。现在做的这个是那次训练的延续吗?”

这位网友观察力惊人啊!能从技术报告里抠出这么多细节。Daya Guo 也耐心解答了模型的迭代过程:

Daya Guo : “660B 参数的 R1-Zero 和 R1 是在 V3 发布之后才开始跑的,训练大约花了 2-3 周。之前我们提到的 R1 模型(比如在 V3 技术报告里),实际上是 R1-Lite 或者 R1-Lite-Zero”

原来如此!我们现在看到的 R1-Zero 和 R1 是 “全新升级版”,之前的 R1-Lite 系列是小规模版本。看来 DeepSeek 在背后默默迭代升级了不少版本啊

关于训练速度,网友 @jiayi_pirate (Jiayi Pan)和 网友B @kaush_trip 又接力提出了一个“灵魂拷问”:

网友D @jiayi_pirate: “3 周 1 万 RL steps,每个梯度传播 (grpo) 步骤要 ~ 3 分钟 ????”

网友B @kaush_trip: “如果每个梯度传播 (grpo) 步骤要 ~3 分钟,那大概每小时 5 步,每天 120 步,确实很慢。”

这算的是真够细致的!按照网友的计算,DeepSeek R1 的训练速度确实不算快。侧面也说明,这种高性能的 RL 模型,训练成本和时间投入都是巨大的。“慢工出细活” 用来形容 AI 模型训练,好像也挺合适的

最后,一位名叫 @davikrehalt (Andy Jiang)的网友,从更前沿的应用角度提了一个问题:

网友E @davikrehalt: “你们有没有尝试用 RL 来搞 形式化证明环境,而不是只做问答对?要是今年有个开源模型能在 IMO (国际数学奥林匹克) 拿金牌就好了!(以及更多希望!)”

形式化证明!IMO 金牌!这位网友的野心不小啊!不过,把 AI 应用到数学证明这种硬核领域,确实是未来趋势。Daya Guo 的回答再次让人惊喜:

Daya Guo : “我们也在尝试将 R1 应用于 Lean 这样的形式化证明环境。我们希望尽快向社区发布更好的模型”

听 Daya Guo 的意思,他们在这方面已经有进展,未来可能会有更重磅的模型发布!期待值拉满!

写在最后

从Daya Guo的回应中可提炼三大信号:

技术定位:RL尚处早期,性能提升远未见顶;

验证逻辑:跨领域测试泛化能力,拒绝“记忆投机”

应用边界:从语言模型到数学证明,RL正向高阶推理迈进

本文来源:AI寒武纪,原文标题:《最新!DeepSeek研究员在线爆料:R1训练仅用两到三周,春节期间观察到R1 zero强大进化》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章