20页→86页！DeepSeek“爆更”论文

近日，DeepSeek更新了关于R1模型的论文，文章篇幅从原本的约20页扩展至86页。

更新后的文章进一步详细展示了LLM（大语言模型）的推理能力可以通过纯粹的强化学习（RL）来训练，且训练出的模型在数学、编码竞赛和STEM领域等可验证任务上取得了优异的成绩。同时，该方式在训练成本上也极具竞争力，DeepSeek-R1-Zero的训练仅耗时198小时。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

具体来看，对于MMLU、MMLU-Pro、GPQA Diamond等面向教育的知识基准测试，DeepSeek-R1比DeepSeek-V3表现出更优越的性能。这一改进主要归功于大规模强化学习取得了显著的成果，使STEM相关问题的准确性得到提高。此外，DeepSeek-R1在FRAMES（一项长上下文相关的QA任务）上表现突出，展示了强大的文档分析能力。这凸显了模型在人工智能驱动的搜索和数据分析任务中的潜力。（上证报）

风险提示及免责条款