赛道Hyper | 百度开源ERNIE 4.5:策略是什么?

在开放协作中探索技术演进。

作者:周源/华尔街见闻

6月30日,百度正式开源文心大模型4.5系列(ERNIE 4.5),涵盖10款不同参数规模的模型,包括47B(470亿)、3B(30亿)激活参数的混合专家(MoE)模型及0.3B(3亿)参数的稠密型模型,预训练权重与推理代码均完全开放。

目前,这些模型已可在飞桨星河社区、HuggingFace等平台下载,百度智能云千帆大模型平台也同步提供了API(应用程序编程接口:Application Programming Interface)服务。

这一动作,延续了科技领域“开放协作”的传统脉络,也为大模型技术的落地提供了新的可能性。

但百度创始人、董事长兼CEO李彦宏曾在2024年的WAIC(世界人工智能大会:World Artificial Intelligence Conference)上,认为开源大模型是“智商税”。

从参数覆盖到工具适配

百度此次开源的10款模型,形成了从0.3B到47B参数的梯度覆盖,囊括基础文本模型和视觉多模态模型(VLM)。除最小的0.3B 模型外,其余模型都采用异构多模态MoE(专家混合模型:Mixture of Experts)架构。

对于算力有限的中小开发者,0.3B参数的稠密型模型可降低部署门槛,MoE模型则能满足企业级复杂任务的需求。这种分层供给思路,让不同资源条件的使用者都能找到适配的工具。

与常规的单模态MoE不同,此次百度开源的ERNIE 4.5模型是一种异构混合型,也就是通过“分而治之”策略提升模型性能的人工智能架构:将多个不同类型的专家模块集成在一起,每个输入仅激活部分相关的专家模块,从而在不显著增加计算量的前提下大幅提升模型容量。

这种架构的核心思想是将复杂任务分解给多个专门的“专家模型”(Expert)处理,再通过门控网络(Gating Network)动态选择最优专家或组合专家输出,从而在保持模型规模可控的同时,提升模型的表达能力和效率。

相对而言,文心大模型4.5系列的技术特点,集中体现在多模态能力的优化上。

作为原生多模态模型,ERNIE 4.5对图像、音视频的理解能力并非简单叠加,而是基于异构MoE架构实现的模态融合,没有盲目追求单一指标的突破,而是在文本任务性能稳定的基础上,逐步增强多模态处理能力。

观察ERNIE 4.5的技术结构可以发现:ERNIE 4.5的异构MoE架构包含文本专家、视觉专家和共享专家三类FFN专家。

FFN专家是指混合专家模型(MoE)中,由前馈神经网络(Feed-Forward Neural Network)构成的专家模块。

每个FFN专家都可以看作是一个独立的子模型,能处理特定类型或范围内的数据。

模型会通过门控网络或路由机制来确定对于每个输入token,应该由哪些FFN专家负责处理。

比如在图像理解中,无论是日常照片还是漫画图标,模型都能输出符合场景逻辑的解读。这种能力的提升源于对多模态数据关联性的持续学习,而非孤立的技术堆砌。

众所周知,英伟达之所以强大,除了AI加速卡本身性能出色,也与以CUDA适配开发工具生态有紧密关系。

百度也同步推出了ERNIE 4.5的配套开发工具:开源完整的开发工具链,包括 ERNIEKit训练工具和FastDeploy推理部署工具,旨在降低开发者使用大模型的门槛,推动多模态AI技术的广泛应用。

这在本质上,也是在践行“工具应当服务于人”的技术伦理。

这些工具降低了模型后训练与部署的技术门槛,使开发者无需深入掌握底层原理,就能基于开源模型做二次开发。

百度此次开源并非孤立动作,早在今年2月,百度便公布了文心大模型4.5的开源计划。

从生态构建的角度看,文心大模型4.5的开源遵循了“技术-用户-数据”的正向循环逻辑。

生态的价值在于连接而非控制。

百度通过开源将模型的使用权交给开发者,后者基于模型开发的应用会产生新的数据反馈,这些数据又会反哺模型迭代。

比如零售企业用其开发商品图像识别工具时,积累的行业数据可帮助模型优化对商品特征的捕捉;教育机构的使用则可能提升模型对教学场景的理解,这种分布式的优化过程,比单一企业闭门研发更高效。

考量:平衡共享与可持续

飞桨平台与文心模型的“双层开源”,进一步强化了生态的协同性。

飞桨作为底层框架,为模型提供了运行环境;文心模型作为上层应用载体,丰富了框架的使用场景。

此等结构符合美国生物学家马古利斯提出的“内共生理论”——不同组件通过互利共生形成更强大的整体。

开发者在飞桨上调试文心模型时,不仅在使用工具,也在参与两个系统的协同优化,这种深度绑定比单纯的技术输出更能增强生态粘性。

但开源不意味着无边界的免费。

文心大模型4.5采用Apache 2.0协议,既允许商业使用,也要求保留原作者信息,这样的制度设计平衡了共享与权益保护。

实际上,从现实角度出发,清晰的产权界定是协作的前提。

明确的协议条款让开发者知道可以做什么、不能做什么,避免了技术应用中的法律风险,也为百度保留了商业变现的空间:通过云平台API服务、增值工具等方式实现可持续运营。

从成本角度看,开源是一种“分布式研发”策略。大模型的训练与迭代需要持续投入算力与人力,单一企业难以承担全部成本。

什么是好的管理呢?很简单,就是让合适的人做合适的事。

百度将模型开源后,全球开发者的智慧被纳入创新体系,有人优化推理速度,有人拓展应用场景。这样的分工,让每个参与者都能聚焦自己擅长的领域,间接降低了整体研发成本。

对行业而言,百度的开源模式提供了一种“标准化基础上的差异化创新”路径。

基础模型的统一,减少了重复研发的浪费;而开发者的二次创新,则能满足不同行业的个性化需求。

就像制造业侧重模型对工业图纸的理解,传媒行业则更关注文本生成的流畅性。这是一种“共性技术+个性应用”的模式,基础技术是基因,行业应用是其在不同环境中的表现型,丰富了技术的生态多样性。

文心大模型4.5的开源,为国内大模型产业提供了一种可参考的发展范式。

不同于闭源模式的黑箱操作,开源让技术能力变得可触摸、可验证。开发者可直接查看模型权重与推理代码,当模型做出决策时,使用者能追溯其逻辑链条,而非被动接受结果。

从全球视角看,此次开源也是国产大模型参与国际协作的一次尝试。

当前全球大模型领域存在多种发展路径:有的坚持闭源商用,有的选择部分开源,有的则完全开放。

文心大模型4.5的全量开源,相当于向全球开发者递出了技术名片,其开放姿态,有助于国产技术融入全球创新网络,在国际反馈中找准自身定位。

当然,开源并非万能钥匙。模型的性能最终仍需在实际应用中检验:在工业质检场景中能否精准识别微小缺陷,在政务服务中能否理解复杂的民生诉求,在教育辅助中能否贴合教学规律:这些真实场景的考验,比实验室的评测数据更有说服力。

百度开源文心大模型4.5的意义,或许不在于当下的技术突破,而在于其展现的发展思路:在开放中凝聚共识,在协作中解决问题。

当越来越多的开发者参与进来,当模型在更多行业场景中落地,大模型技术才能真正走出实验室,成为推动社会进步的实用工具,但这一过程没有捷径。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章