自 OpenAI 发布 Sora,业界对该模型的能力及其所带来的影响和机会讨论不断。虽然 OpenAI 没有放出 Sora 的训练细节,但在其技术报告中又一次强调该公司所拥护的核心理念——Scaling Law。即,支持 Sora 的 Diffusion Transformer 模型同样符合 Scale effectively),随着训练计算量增加,视频质量显著提升。这让 Scaling Law 再次成为人工智能领域的热点话题。
Scaling Law 是什么?
1、针对语言模型的 Scaling Law 来自 OpenAI 2020 年发布的论文,其释义可简要总结为:随着「模型大小」、「数据集大小」、「(用于训练的)计算浮点数」的增加,模型的性能会提高。当不受其他两个因素的制约时,模型性能与每个单独的因素都有幂律关系。
① 模型性能受三个因素共同影响,其中计算量对性能的提升最为显著,其次是模型参数,而数据集大小的影响相对较小。在资源不受限制的情况下,性能提升最为显著。
② 在有限的计算资源下,为了获得最佳性能,可以通过训练大型模型并在其达到最佳状态前提前终止训练。
③ 大型模型在样本效率上更优,它们可以用较少的数据和优化步骤达到与小型模型相同的性能。在实践中,应优先考虑训练大型模型。
2、Scaling Law 的意义在于允许研究者预测模型性能随参数、数据和计算资源变化的趋势,这对于在有限预算下做出关键设计选择,如确定模型和数据的理想规模,避免昂贵的试错过程,具有重要意义。
① 在大语言模型的训练中,交叉熵损失是评估模型预测准确性的常用指标,它衡量模型输出与实际情况的差距。损失越低,预测越精确,训练目标就是降低这一损失。
3、作为另一个代表性研究,Google DeepMind 团队的 Hoffmann 等人同样提出了一种用于指导 LLMs 计算最优训练的替代 Scaling Law 形式。
① 在有限的浮点运算(FLOP)预算下,损失函数显示出最佳性能点:对于较小的模型,增加数据量以训练较大的模型能提升性能;对于较大的模型,使用更多数据训练较小的模型同样能带来改进。
② 为了实现计算成本的最优,模型的规模和训练数据量(token 数)应保持成比例的增长,即模型规模翻倍时,训练数据量也应相应翻倍。
③ 在训练大型语言模型时,应重视数据集的扩充,但只有在数据质量高的情况下,扩大数据集的优势才能得到充分发挥。
4、总体而言,给定计算预算的增加,OpenAI 的 Scaling Law 更倾向于在模型大小上分配更大的预算,而 Chinchilla 版则认为两个大小应该等比例增加。
Scaling Law 带来的争议有哪些?
围绕 Scaling Law 的讨论中,「模型是否越大越好?」的问题在近几年反复被提及,各方观点莫衷一是。科技博主 Dwarkesh Patel 曾撰文梳理了社区中围绕 Scaling Law 的争议与讨论的关键问题,并对支持或质疑的声音进行了解读分析。
① 积极观点认为,到 2024 年,高质量的语言数据将会用尽。根据 Scaling Law,我们需要的数据量比现有的多出 5 个数量级,这意味着现有数据可能只有真正需要的 10 万分之一。尽管可以通过提高数据利用效率的方法,如多模态训练、循环利用数据集、课程学习等,但这些方法难以满足 Scaling Law 指数式增长的数据需求。
② 消极观点认为,不应该因为数据短缺质疑 Scaling Law 的可行性。LLM 在处理数据时效率不高,但如果合成数据有效,我们不应该对继续 Scaling 持怀疑态度。有研究者对 self-play 和合成数据的方法持乐观态度,认为这些方法可能有效,并且有丰富的数据来源和生成数据的方法。
① 积极观点认为,在各种基准测试中,模型的性能已经稳步提升了 8 个数量级,即使在计算资源增加的情况下,模型性能的损失仍然可以精确到小数点后多位。GPT-4 的技术报告表明,可以通过较小的模型预测最终模型的性能,这表明 Scaling Law 的趋势可能会持续。
② 消极观点则质疑 Scaling Law 是否能说明模型的泛化能力有实质提升。有声音指出现有的基准测试更多地测试模型的记忆力而非智能程度,并且模型在长期任务上的表现并不出色。例如,GPT-4 在 SWE-bench 测试中的得分很低,表明模型在处理长时间跨度的复杂信息时存在问题。
① 有研究表明,学习大量代码能够增强 LLM 的语言推理能力,显示出模型能够识别并利用语言和代码中的通用逻辑结构。梯度下降作为一种优化策略,旨在通过数据压缩来深入理解信息,从而提高模型的预测能力。
② 积极观点认为,为了预测下一个 Token,LLM 必须学习万物背后的规律,理解 Token 之间的联系。例如,通过学习代码可以提高 LLM 的语言推理能力,这表明模型能够从数据中提炼出通用的思考模式。
③ 消极观点认为,智能不仅仅是数据压缩,即使 LLM 通过 SGD 过程实现了数据压缩,这并不能证明它们具备与人类相似的智能水平。
④ 还有一种观点认为,大模型存在方向上的路线错误......
文章来源:机器之能 原文标题《Scaling Law 又一次性感了吗?》风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。