赛道Hyper | 百度开源ERNIE 4.5：策略是什么？

周源

07/01 17:08

在开放协作中探索技术演进。

作者：周源/华尔街见闻

6月30日，百度正式开源文心大模型4.5系列（ERNIE 4.5），涵盖10款不同参数规模的模型，包括47B（470亿）、3B（30亿）激活参数的混合专家（MoE）模型及0.3B（3亿）参数的稠密型模型，预训练权重与推理代码均完全开放。

目前，这些模型已可在飞桨星河社区、HuggingFace等平台下载，百度智能云千帆大模型平台也同步提供了API（应用程序编程接口：Application Programming Interface）服务。

这一动作，延续了科技领域“开放协作”的传统脉络，也为大模型技术的落地提供了新的可能性。

但百度创始人、董事长兼CEO李彦宏曾在2024年的WAIC（世界人工智能大会：World Artificial Intelligence Conference）上，认为开源大模型是“智商税”。

从参数覆盖到工具适配

百度此次开源的10款模型，形成了从0.3B到47B参数的梯度覆盖，囊括基础文本模型和视觉多模态模型（VLM）。除最小的0.3B 模型外，其余模型都采用异构多模态MoE（专家混合模型：Mixture of Experts）架构。

对于算力有限的中小开发者，0.3B参数的稠密型模型可降低部署门槛，MoE模型则能满足企业级复杂任务的需求。这种分层供给思路，让不同资源条件的使用者都能找到适配的工具。

与常规的单模态MoE不同，此次百度开源的ERNIE 4.5模型是一种异构混合型，也就是通过“分而治之”策略提升模型性能的人工智能架构：将多个不同类型的专家模块集成在一起，每个输入仅激活部分相关的专家模块，从而在不显著增加计算量的前提下大幅提升模型容量。

这种架构的核心思想是将复杂任务分解给多个专门的“专家模型”（Expert）处理，再通过门控网络（Gating Network）动态选择最优专家或组合专家输出，从而在保持模型规模可控的同时，提升模型的表达能力和效率。

相对而言，文心大模型4.5系列的技术特点，集中体现在多模态能力的优化上。

作为原生多模态模型，ERNIE 4.5对图像、音视频的理解能力并非简单叠加，而是基于异构MoE架构实现的模态融合，没有盲目追求单一指标的突破，而是在文本任务性能稳定的基础上，逐步增强多模态处理能力。

观察ERNIE 4.5的技术结构可以发现：ERNIE 4.5的异构MoE架构包含文本专家、视觉专家和共享专家三类FFN专家。

FFN专家是指混合专家模型（MoE）中，由前馈神经网络（Feed-Forward Neural Network）构成的专家模块。

每个FFN专家都可以看作是一个独立的子模型，能处理特定类型或范围内的数据。

模型会通过门控网络或路由机制来确定对于每个输入token，应该由哪些FFN专家负责处理。

比如在图像理解中，无论是日常照片还是漫画图标，模型都能输出符合场景逻辑的解读。这种能力的提升源于对多模态数据关联性的持续学习，而非孤立的技术堆砌。

众所周知，英伟达之所以强大，除了AI加速卡本身性能出色，也与以CUDA适配开发工具生态有紧密关系。

百度也同步推出了ERNIE 4.5的配套开发工具：开源完整的开发工具链，包括 ERNIEKit训练工具和FastDeploy推理部署工具，旨在降低开发者使用大模型的门槛，推动多模态AI技术的广泛应用。

这在本质上，也是在践行“工具应当服务于人”的技术伦理。

这些工具降低了模型后训练与部署的技术门槛，使开发者无需深入掌握底层原理，就能基于开源模型做二次开发。

百度此次开源并非孤立动作，早在今年2月，百度便公布了文心大模型4.5的开源计划。

从生态构建的角度看，文心大模型4.5的开源遵循了“技术-用户-数据”的正向循环逻辑。

生态的价值在于连接而非控制。

百度通过开源将模型的使用权交给开发者，后者基于模型开发的应用会产生新的数据反馈，这些数据又会反哺模型迭代。

比如零售企业用其开发商品图像识别工具时，积累的行业数据可帮助模型优化对商品特征的捕捉；教育机构的使用则可能提升模型对教学场景的理解，这种分布式的优化过程，比单一企业闭门研发更高效。

考量：平衡共享与可持续

飞桨平台与文心模型的“双层开源”，进一步强化了生态的协同性。

飞桨作为底层框架，为模型提供了运行环境；文心模型作为上层应用载体，丰富了框架的使用场景。

此等结构符合美国生物学家马古利斯提出的“内共生理论”——不同组件通过互利共生形成更强大的整体。

开发者在飞桨上调试文心模型时，不仅在使用工具，也在参与两个系统的协同优化，这种深度绑定比单纯的技术输出更能增强生态粘性。

但开源不意味着无边界的免费。

文心大模型4.5采用Apache 2.0协议，既允许商业使用，也要求保留原作者信息，这样的制度设计平衡了共享与权益保护。

实际上，从现实角度出发，清晰的产权界定是协作的前提。

明确的协议条款让开发者知道可以做什么、不能做什么，避免了技术应用中的法律风险，也为百度保留了商业变现的空间：通过云平台API服务、增值工具等方式实现可持续运营。

从成本角度看，开源是一种“分布式研发”策略。大模型的训练与迭代需要持续投入算力与人力，单一企业难以承担全部成本。

什么是好的管理呢？很简单，就是让合适的人做合适的事。

百度将模型开源后，全球开发者的智慧被纳入创新体系，有人优化推理速度，有人拓展应用场景。这样的分工，让每个参与者都能聚焦自己擅长的领域，间接降低了整体研发成本。

对行业而言，百度的开源模式提供了一种“标准化基础上的差异化创新”路径。

基础模型的统一，减少了重复研发的浪费；而开发者的二次创新，则能满足不同行业的个性化需求。

就像制造业侧重模型对工业图纸的理解，传媒行业则更关注文本生成的流畅性。这是一种“共性技术+个性应用”的模式，基础技术是基因，行业应用是其在不同环境中的表现型，丰富了技术的生态多样性。

文心大模型4.5的开源，为国内大模型产业提供了一种可参考的发展范式。

不同于闭源模式的黑箱操作，开源让技术能力变得可触摸、可验证。开发者可直接查看模型权重与推理代码，当模型做出决策时，使用者能追溯其逻辑链条，而非被动接受结果。

从全球视角看，此次开源也是国产大模型参与国际协作的一次尝试。

当前全球大模型领域存在多种发展路径：有的坚持闭源商用，有的选择部分开源，有的则完全开放。

文心大模型4.5的全量开源，相当于向全球开发者递出了技术名片，其开放姿态，有助于国产技术融入全球创新网络，在国际反馈中找准自身定位。

当然，开源并非万能钥匙。模型的性能最终仍需在实际应用中检验：在工业质检场景中能否精准识别微小缺陷，在政务服务中能否理解复杂的民生诉求，在教育辅助中能否贴合教学规律：这些真实场景的考验，比实验室的评测数据更有说服力。

百度开源文心大模型4.5的意义，或许不在于当下的技术突破，而在于其展现的发展思路：在开放中凝聚共识，在协作中解决问题。

当越来越多的开发者参与进来，当模型在更多行业场景中落地，大模型技术才能真正走出实验室，成为推动社会进步的实用工具，但这一过程没有捷径。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

赛道Hyper | 百度开源ERNIE 4.5：策略是什么？

从参数覆盖到工具适配

考量：平衡共享与可持续

Kimi K2发布并开源，擅长代码与Agentic任务

赛道Hyper | Black Forest开源新模型：文本P图党福音

赛道Hyper | 腾讯混元开源Hunyuan-A13B：1张AI卡搞定

华为大模型也加入开源大军了

华为首个开源大模型来了！Pro MoE 720亿参数，4000颗昇腾训练