“大模型”激战正酣，“小模型”在开辟新战场

赵颖

2023-12-14 16:53

848

规模较小的模型不仅可以降低了大规模运行AI应用的成本，同时极大地拓宽了生成式AI的应用范围。

AI模型军备竞赛风起云涌，各家大模型打得火热的同时，小模型竞争开辟出新战场。

本周多家公司在“小模型”方面开疆拓土，试图证明其模型可以事半功倍。周一，法国初创公司MistralAI公布的开源模型Mixtral 8x7B引起轰动，该模型不仅性能比肩GPT-3.5，另一大优势是规模小到足以在一台电脑上运行。

周二，微软亮出了小模型大招，发布27亿参数规模的小语言模型Phi-2，在部分基准测试中超过谷歌的Gemini Nano 2，可以在笔记本电脑、手机等移动设备上运行。

毫无疑问，规模较小的模型可以降低了大规模运行人工智能应用的成本，同时极大地拓宽了生成式AI技术的应用范围。

此外，事关模型能力强大与否的关键——强化学习（RL）技术最新的优化进展也引起业界的关注。

“小模型”开辟新战场

MistralAI的小模型Mixtral 8x7B为开源模型，其规模参数相对较小，而能力却能达到GPT-3.5的水平，迅速引起了业内研究人员的关注。

Mixtral 8x7B 之所以叫 Mixtral 8x7B，是因为它属于稀疏模型，将各种为处理特定任务而训练的较小模型组合在一起，从而提高了运行效率。

性能方面，Mixtral表现优于Llama 2 70B，推理速度提高了整整6倍；在大多数标准基准测试上与GPT-3.5打平，甚至略胜一筹。

成本方面，由于Mixtral的参数较小，所以其成本也更低。与Llama 2相比，Mixtral 8x7B表现出自己高能效的优势。

值得一提的是，MistralAI刚刚完成4.15亿美元融资，最新估值已经冲破20亿美元，在短短6个月中增长了7倍多。

本周另一家登场的小模型是微软自制模型Phi-2，Phi-2 的参数只有27亿，小到足以在手机上运行。该模型在精心挑选的数据集上进行了训练，数据集的质量足够高，即使手机的计算能力有限，也能确保模型生成准确的结果。

从性能表现看，Phi-2在Big Bench Hard（BBH）、常识推理、语言理解、数学和编码基准测试中，其平均性能得分已经超过70亿、130亿参数规模的Mistral和Llama 2，在部分基准测试中超过谷歌的Gemini Nano 2。

目前微软正发力小模型的布局，分析指出，微软与OpenAI的紧密合作，使得GPT模型的表现在大模型市场一骑绝尘，再加上微软参数规模更小的Phi系列，能进一步抢占开源模型长尾市场。

模型能力强大的关键：强化学习技术

AI领域的另一大进展则是强化学习技术的优化，强化学习是一种基于“奖励期望行为”和“惩罚不期望行为”的机器学习训练方法。许多人猜测，OpenAI的模型之所以表现如此出色，主要是因为它使用了人类来告诉模型哪些结果是好的，哪些结果是坏的，也就是所谓的“人类反馈强化学习”（RLHF）。

根据强化学习初创公司Adaptive的联合创始人Julien Launay介绍，AI缺少如何将这些知识整合在一起的规则。例如，一个看似简单的问题“我的iPhone掉了会怎样？”需要模型理解iPhone是什么？物体掉落时会发生什么？iPhone很贵，掉了我会很伤心以及所有这些想法之间的关系。强化学习在某种程度上为模型提供了自己的知识图谱，告诉模型某些信息是如何关联的。

不过，强化学习远非完美，执行起来成本也很昂贵，业内期待更便宜、更有效的训练方案。这一点很重要，因为它意味着小型开发者可能很快就能利用，以前只有大型模型提供商才能使用的训练技术来改进他们的模型。

近期，一家利用私人数据开发定制模型的初创公司Contextual AI开发了一种方法，只需要人类发出信号，也许是在聊天机器人上点击，就能知道模型的反应是可取的还是不可取的。这种方法改进了传统的、更加主观的做法，即要求人类从多个可能的回应中选出他们认为最佳的模型回应。Contextual 将这种新方法命名为“Kahneman-Tversky Optimization”，以纪念这两位著名的经济学家。

Contextual AI研究员Kawin Ethayarajh指出，研究人员还利用像OpenAI的GPT-4 这样更大、更复杂的模型，对更小、能力更弱的模型进行训练。就目前而言，强化学习仍然是一个复杂而困难的过程，但像这样的新发现有望让处于劣势的开发者在与OpenAI的竞争中占得先机。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。