作者:周源/华尔街见闻
6月30日,百度正式开源文心大模型4.5系列(ERNIE 4.5),涵盖10款不同参数规模的模型,包括47B(470亿)、3B(30亿)激活参数的混合专家(MoE)模型及0.3B(3亿)参数的稠密型模型,预训练权重与推理代码均完全开放。
目前,这些模型已可在飞桨星河社区、HuggingFace等平台下载,百度智能云千帆大模型平台也同步提供了API(应用程序编程接口:Application Programming Interface)服务。
这一动作,延续了科技领域“开放协作”的传统脉络,也为大模型技术的落地提供了新的可能性。
但百度创始人、董事长兼CEO李彦宏曾在2024年的WAIC(世界人工智能大会:World Artificial Intelligence Conference)上,认为开源大模型是“智商税”。
从参数覆盖到工具适配
百度此次开源的10款模型,形成了从0.3B到47B参数的梯度覆盖,囊括基础文本模型和视觉多模态模型(VLM)。除最小的0.3B 模型外,其余模型都采用异构多模态MoE(专家混合模型:Mixture of Experts)架构。
对于算力有限的中小开发者,0.3B参数的稠密型模型可降低部署门槛,MoE模型则能满足企业级复杂任务的需求。这种分层供给思路,让不同资源条件的使用者都能找到适配的工具。
与常规的单模态MoE不同,此次百度开源的ERNIE 4.5模型是一种异构混合型,也就是通过“分而治之”策略提升模型性能的人工智能架构:将多个不同类型的专家模块集成在一起,每个输入仅激活部分相关的专家模块,从而在不显著增加计算量的前提下大幅提升模型容量。
这种架构的核心思想是将复杂任务分解给多个专门的“专家模型”(Expert)处理,再通过门控网络(Gating Network)动态选择最优专家或组合专家输出,从而在保持模型规模可控的同时,提升模型的表达能力和效率。
相对而言,文心大模型4.5系列的技术特点,集中体现在多模态能力的优化上。
作为原生多模态模型,ERNIE 4.5对图像、音视频的理解能力并非简单叠加,而是基于异构MoE架构实现的模态融合,没有盲目追求单一指标的突破,而是在文本任务性能稳定的基础上,逐步增强多模态处理能力。
观察ERNIE 4.5的技术结构可以发现:ERNIE 4.5的异构MoE架构包含文本专家、视觉专家和共享专家三类FFN专家。
FFN专家是指混合专家模型(MoE)中,由前馈神经网络(Feed-Forward Neural Network)构成的专家模块。
每个FFN专家都可以看作是一个独立的子模型,能处理特定类型或范围内的数据。
模型会通过门控网络或路由机制来确定对于每个输入token,应该由哪些FFN专家负责处理。
比如在图像理解中,无论是日常照片还是漫画图标,模型都能输出符合场景逻辑的解读。这种能力的提升源于对多模态数据关联性的持续学习,而非孤立的技术堆砌。
众所周知,英伟达之所以强大,除了AI加速卡本身性能出色,也与以CUDA适配开发工具生态有紧密关系。
百度也同步推出了ERNIE 4.5的配套开发工具:开源完整的开发工具链,包括 ERNIEKit训练工具和FastDeploy推理部署工具,旨在降低开发者使用大模型的门槛,推动多模态AI技术的广泛应用。
这在本质上,也是在践行“工具应当服务于人”的技术伦理。
这些工具降低了模型后训练与部署的技术门槛,使开发者无需深入掌握底层原理,就能基于开源模型做二次开发。
百度此次开源并非孤立动作,早在今年2月,百度便公布了文心大模型4.5的开源计划。
从生态构建的角度看,文心大模型4.5的开源遵循了“技术-用户-数据”的正向循环逻辑。
生态的价值在于连接而非控制。
百度通过开源将模型的使用权交给开发者,后者基于模型开发的应用会产生新的数据反馈,这些数据又会反哺模型迭代。
比如零售企业用其开发商品图像识别工具时,积累的行业数据可帮助模型优化对商品特征的捕捉;教育机构的使用则可能提升模型对教学场景的理解,这种分布式的优化过程,比单一企业闭门研发更高效。
考量:平衡共享与可持续
飞桨平台与文心模型的“双层开源”,进一步强化了生态的协同性。
飞桨作为底层框架,为模型提供了运行环境;文心模型作为上层应用载体,丰富了框架的使用场景。
此等结构符合美国生物学家马古利斯提出的“内共生理论”——不同组件通过互利共生形成更强大的整体。
开发者在飞桨上调试文心模型时,不仅在使用工具,也在参与两个系统的协同优化,这种深度绑定比单纯的技术输出更能增强生态粘性。
但开源不意味着无边界的免费。
文心大模型4.5采用Apache 2.0协议,既允许商业使用,也要求保留原作者信息,这样的制度设计平衡了共享与权益保护。
实际上,从现实角度出发,清晰的产权界定是协作的前提。
明确的协议条款让开发者知道可以做什么、不能做什么,避免了技术应用中的法律风险,也为百度保留了商业变现的空间:通过云平台API服务、增值工具等方式实现可持续运营。
从成本角度看,开源是一种“分布式研发”策略。大模型的训练与迭代需要持续投入算力与人力,单一企业难以承担全部成本。
什么是好的管理呢?很简单,就是让合适的人做合适的事。
百度将模型开源后,全球开发者的智慧被纳入创新体系,有人优化推理速度,有人拓展应用场景。这样的分工,让每个参与者都能聚焦自己擅长的领域,间接降低了整体研发成本。
对行业而言,百度的开源模式提供了一种“标准化基础上的差异化创新”路径。
基础模型的统一,减少了重复研发的浪费;而开发者的二次创新,则能满足不同行业的个性化需求。
就像制造业侧重模型对工业图纸的理解,传媒行业则更关注文本生成的流畅性。这是一种“共性技术+个性应用”的模式,基础技术是基因,行业应用是其在不同环境中的表现型,丰富了技术的生态多样性。
文心大模型4.5的开源,为国内大模型产业提供了一种可参考的发展范式。
不同于闭源模式的黑箱操作,开源让技术能力变得可触摸、可验证。开发者可直接查看模型权重与推理代码,当模型做出决策时,使用者能追溯其逻辑链条,而非被动接受结果。
从全球视角看,此次开源也是国产大模型参与国际协作的一次尝试。
当前全球大模型领域存在多种发展路径:有的坚持闭源商用,有的选择部分开源,有的则完全开放。
文心大模型4.5的全量开源,相当于向全球开发者递出了技术名片,其开放姿态,有助于国产技术融入全球创新网络,在国际反馈中找准自身定位。
当然,开源并非万能钥匙。模型的性能最终仍需在实际应用中检验:在工业质检场景中能否精准识别微小缺陷,在政务服务中能否理解复杂的民生诉求,在教育辅助中能否贴合教学规律:这些真实场景的考验,比实验室的评测数据更有说服力。
百度开源文心大模型4.5的意义,或许不在于当下的技术突破,而在于其展现的发展思路:在开放中凝聚共识,在协作中解决问题。
当越来越多的开发者参与进来,当模型在更多行业场景中落地,大模型技术才能真正走出实验室,成为推动社会进步的实用工具,但这一过程没有捷径。