文心一言迭代数据曝光，QPS提升10倍，留给大模型创业玩家的涌现时间不多了

量子位

2023/04/25 08:04

大模型雪球效应开始展现，“架构-大模型-应用-数据”飞轮加速闭环，降低推理成本，加速大模型产业落地，产品应用更具长期持续性。

文心一言上线内测一个月后，首份迭代数据曝光：

一个月共迭代4次；
模型推理效率提升10倍，最近一次带来的推理提升达到123%；
推理性能提升50%，模型算力利用率提升1倍。

简单归纳就是说，迭代很快、不仅成本降下来了，顺便还把性能提升了？！

要知道过去一个月内，全球网友们的热情被这场技术风暴所点燃，人们玩得不亦乐乎，ChatGPT也overload了好几次。

作为国内率先发布的文心一言，是如何保持住高效迭代的？

在这份成绩单中，找到了答案。

文心一言首月数据曝光

曝光的数据不多，但全都是关键技术指标——

大模型训练与推理方面的数据，直接影响后续产品体验效果的好坏。

首先，迭代方面。百度飞桨支撑的大模型推理服务在4月19日再次迭代，搭载了支持动态插入的分布式推理引擎。据消息称，这还是业内首创。

截止目前，已迭代至3.5版本，一个月共迭代4次。

具体到推理方面，QPS （每秒查询推理响应速度）提升10倍，模型推理性能提升50%，模型算力利用率提升1倍。

QPS （每秒查询推理响应速度）提升10倍，也就代表着是大模型推理效率的提升，推理成本降低为原来的10分之一。换言之，在同等成本情况下可以为更多用户提供服务。

模型推理性能提升50%。大模型需要在用户反馈中持续不断的学习，推理作为大模型应用的关键，其性能的提升直接影响到产品侧的效果。

而算力利用率提升1倍，同样也是降本增效的体现。

事实上，不管是迭代速度，还是从模型成本、性能以及效率等多方面的提升，而这背后文心一言之所以能够高效迭代，飞桨的重要性不容忽视。

更确切地来说，「飞桨+文心一言」联合优化。

大模型不仅需要单纯的「暴力美学」的支撑，同时还需要深度学习框架作为底层来支持高效、稳定的分布式训练。

此次数据就可以看到，飞桨即向上与模型「文心一言」，又向下与芯片算力都实现了协同优化，实现整体的效能提升。

而具体到推理过程，飞桨能为文心一言“定制”了一个精密生产流程，结合大模型算力、数据、参数量等特点来设计工艺，从而提升了推理效率和性能，帮助模型学习得越快越好。

大模型技术行业挑战

这些迭代数据的背后，带出了大模型技术的新行业挑战值得探讨。

随着更多产业玩家的推进，我们已经明显感知到大模型投入大成本高。如果没有足够的资金和计算资源，就连开发训练这一阶段都难以进行。

据最新消息，OpenAI每天需要支付70万美元来维持ChatGPT基础设施运行。在此之前微软也已经从中投入了数十亿美元。

诚如每每有行业大佬选择大模型创业，都有网友调侃：这点钱不够烧的。

其次，大模型优化难迭代要求高，需要自上而下的全局优化。

以往认知中，大模型核心技术突破来源于暴力资源累积，可以是超大规模计算资源的聚集、超大规模模型结构的设计、海量数据亦或是参数量的提升……

但事实上这牵涉到每个环节自上而下很强的经验积累。

诚如OpenAI有业内人士消息称，它将整个公司最优秀的算法研究员，拿去做数据规划和处理。

现在在百度文心一言，也得到再一次印证：

大模型的突破和迭代，并非靠简单三驾马车（算力算法数据）来驱动，而是一整套从底层芯片框架到模型训练推理等流程的系统工程化难题。

与此同时在这份数据中，也透露出了百度的经验解法：

全局技术栈，端到端优化。

早在文心一言启动邀测时，李彦宏就已经披露，百度将目前已有的AI技术栈自上而下分成了四个方面：应用层、模型层、框架层与芯片层。

四层架构之间端到端优化，进而来实现降本增效。此次飞桨与文心一言的联合优化，正好就是这套解法最直观的展现。

飞桨之于文心一言，一方面其开源分布式架构，可以支持模型大规模GPU并行训练，以提升模型的性能和效率。另一方面，连接了芯片层与模型层，将整套流程设计得更加精密和适配。

甚至业内人士这样形象化地形容：

大模型就像汽车的发动机，要压榨出发动机瞬时最大爆发力（QPS）以及最优的性能表现。

深度学习就像是发动机的动力源“变速箱“，可以让发动机整体部件组合更精密、动力更强。

更关键在于，如果这几层技术栈都是自主自研，那么协同合作就会更高效，效率提升也会更加明显。

这些又意味着什么？

最后，在这些行业挑战和百度经验解法之中，也透露出了大模型发展的几大趋势。

首先，大模型想要跑得快跑得稳，必须端到端优化。

OpenAI的成功一方面可以归结于自身的人才技术以及长期投入，另一方面微软从框架到算力的支持，也在其中做出了关键贡献，这才有了持续惊艳全球的ChatGPT。

只是当时这种端到端优化的范式没有被太多强调关注。而此次曝光的文心一言数据，则是更广泛地证明了端到端优化的优势。

以往大家所关注到的是大模型训练中算力、算法以及数据的必要性。但底层比如深度学习框架，对大模型训练推理的重要作用也应该被大家所广泛感知。

其次，端到端优化的趋势，也正在改变大模型赛道游戏规则。

ChatGPT风暴席卷而来，巨头们纷纷进场，大佬们前后脚创业，大模型人才被哄抢，每周都有上千个AI应用涌现……每个躬身入局的机构都在金钱、时间等方面进行抢夺与追赶。在大模型的创业浪潮中，有人把入场券门槛认为5000万美元，窗口期大概在半年到一年。

但现在这种端到端优化趋势，正在让创业窗口期越来越短。

原因无他，大模型雪球效应已经开始展现。

以百度为代表的大模型玩家，正在形成“架构-大模型-应用-数据”飞轮加速闭环。一方面，推理成本降低，加速大模型产业落地，甚至可能比上一波浪潮更快；另一方面，大模型迭代速度越来越快，产品应用具有长期持续性，商业壁垒更容易建立，对下游生态玩家而言，这自然是刚需和利好。

但与之相关，大模型创业甚至产品发布的窗口期也正在被压缩，留给大模型创业玩家的涌现的时间也不多了——

他们不光要准备金钱、时间等这些外在资源储备，还需要考虑自身产品能否还具有竞争力。另外创业的必要性也正在减弱：就动辄大几千万甚至上亿的入场券来说，既没有必要重复造轮子，也没有端到端核心积累优势。

大模型创业的机遇，会开始朝着生态和应用创新倾斜。

但也正因如此，反而更加彰显了大模型自主的重要性，因为太基础、太底层、太需要把生态放在放心安心的国产层面了。

大模型趋势再明晰不过，千行百业的落地价值也已经预见，入局是必然，但之前是否需要按照地缘区域或国界划分“造轮子”却没有共识——有些论点里，依然相信科学技术的进展会普惠到全世界。

然而随着地球另一边，OpenAI越来越Close，API输出的区别对待，中国需要自己的大模型底座，正在成为共识。

有意思的是，这在芯片、深度学习框架、底层架构平台的打造过程中，已经有过一轮讨论，有过一轮经验教训，并且还被类比为了汽车产业中的“发动机”，最后明确“发动机”必须要自主，这样产业才真正安全。

然而到了大模型竞速中，对于“变速箱”的认知，之前因为对大模型认知不完备，存在不同声音，但此役过后，应该无人再有异议了。

毕竟百度已经在打造、迭代的过程中，展现出了这种四层自研技术栈的端到端协同的必要性和重要性。

不过也正是这种必要性和重要性，进一步明示了大模型打造的残酷的游戏规则：

凡有的，还要加倍给他，叫他多余；没有的，连他所有的也要夺过来。

这背后既是端到端全栈带动的壁垒，更是数据、应用驱动飞轮之下越滚越大的雪球。

随着雪球向前，大模型产业落地的速度自然会加快，同时留给其他大模型玩家涌现的时间也越来越紧缺。

这种趋势已经开始，这种趋势还会持续。

本文作者：杨净，本文来源：量子位，原文标题：《文心一言迭代数据曝光，QPS提升10倍，留给大模型创业玩家的涌现时间不多了》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。