近日,DeepSeek更新了关于R1模型的论文,文章篇幅从原本的约20页扩展至86页。
更新后的文章进一步详细展示了LLM(大语言模型)的推理能力可以通过纯粹的强化学习(RL)来训练,且训练出的模型在数学、编码竞赛和STEM领域等可验证任务上取得了优异的成绩。同时,该方式在训练成本上也极具竞争力,DeepSeek-R1-Zero的训练仅耗时198小时。
具体来看,对于MMLU、MMLU-Pro、GPQA Diamond等面向教育的知识基准测试,DeepSeek-R1比DeepSeek-V3表现出更优越的性能。这一改进主要归功于大规模强化学习取得了显著的成果,使STEM相关问题的准确性得到提高。此外,DeepSeek-R1在FRAMES(一项长上下文相关的QA任务)上表现突出,展示了强大的文档分析能力。这凸显了模型在人工智能驱动的搜索和数据分析任务中的潜力。
DeepSeek-R1还在IF-Eval(一项旨在评估模型指令跟随能力的基准测试)上获得了突出的表现结果。模型在AlpacaEval2.0和ArenaHard上也有出色的表现,表明DeepSeek-R1在写作任务和开放域问答方面的优势。
在数学任务上,DeepSeek-R1的性能与OpenAI-o1-1217相当,且大幅超越其他模型。在LiveCodeBench和Codeforces等编程算法任务中也观察到了类似的趋势。工程导向的编程任务上,OpenAI-o1-1217在Aider上的性能表现优于DeepSeek-R1,但在SWE Verified测试中,二者性能相当。DeepSeek表示,DeepSeek-R1的相关能力将在下一版本中得到改善,因为目前工程类的RL训练数据量仍然非常有限。
论文还对DeepSeek-R1-Zero、DeepSeek-R1和人类参与者在多个基准测试的表现进行了比较分析。其中,AIME是一项高中级别的数学竞赛,DeepSeek-R1在该项目中的表现超越了人类在该比赛中取得的平均分。在Codeforces平台上,DeepSeek-R1的表现优于96.3%的人类参与者,显示出先进的问题解决能力。在GPQA中,人类专家(通常是具有博士学位且可访问网络资源的个人)的表现仍然优于DeepSeek-R1。对此,DeepSeek表示,让DeepSeek-R1接入互联网可显著提高其在GPQA上的性能,可能缩小或消除已观察到的差距。
值得注意的是,论文指出,DeepSeek-R1的能力可有效、稳定地迁移到参数量更小的模型上,以便在训练和部署中节省高性能GPU和电力等计算资源。
DeepSeek研究团队使用了由DeepSeek-R1生成的800000个样本组成的数据集对Qwen和LLaMA等开源基础模型进行微调,发现从高质量“教师模型”中蒸馏出的模型始终优于直接使用人类生成数据训练出的模型。
DeepSeek研究团队补充道,在模型蒸馏过程中仅使用了SFT(监督微调),并未包括RL阶段,尽管让小模型再跑一遍RL可以显著提高性能。
在训练成本方面,研究团队在训练DeepSeek-R1-Zero时使用了64×8张H800 GPU,整个过程耗时约198小时。而在DeepSeek-R1的训练阶段,研究团队同样使用了64×8张H800 GPU,在约80小时内完成了该训练过程。为了创建SFT数据集,团队亦使用了5000 GPU小时。如下图所示,按2美元/GPU小时计算,上述过程一共仅花费29.4万美元。
本文来源:上海证券报



