百度把他们全新的视觉理解模型Qianfan-VL直接开源了。
Qianfan-VL系列一共有三个版本,3B、8B和70B,参数量从小到大,分别对应不同的应用场景。
模型从头到尾,都是在百度自己家的芯片昆仑芯P800上训练出来的。
模型的性能和应用
Qianfan-VL是一个多模态大模型,就是那种既能看懂图片又能理解文字的AI。一张复杂的图表,它能分析出里面的数据和趋势。
它最核心的两个本领是OCR(光学字符识别)和教育场景的深度优化。
你拍一张身份证,系统自动把你的姓名、证件号填好,这就是OCR。Qianfan-VL把这项能力做到了全场景覆盖,不管是印刷体、手写字,还是藏在街边招牌、商品包装袋上的艺术字,甚至是数学卷子上的复杂公式,它都能识别。发票、单据里的信息也能自动抽出来,变成结构化的数据。
而在教育场景,特别是K12(从幼儿园到高三)阶段,它的目标就是成为一个超级学霸。拍照解题、几何推理、函数分析,这些都是它的强项。
Qianfan-VL和国际上几个主流的多模态模型跑分对比。
在科学问答测试ScienceQA里,70B版本的Qianfan-VL拿到了接近满分的98.76,把一众对手甩在身后。
尤其是在中文多模态基准测试CCBench中,Qianfan-VL-70B拿到了80.98分,而同级别的对手只有70分出头。这说明它在理解中文语境下的图文内容时,优势非常明显。
在数学解题相关的几项测试,比如Mathvista-mini,Math Vision和Math Verse里,Qianfan-VL-70B几乎是碾压式的领先。
纯血国产芯片训练
支撑Qianfan-VL模型训练的,是百度自研的昆仑芯P800芯片。
2025年4月,百度点亮了国内首个全自研的3万卡昆仑芯P800集群。Qianfan-VL的所有训练任务,都是在一个超过5000张昆仑芯P800卡的集群上完成的。
昆仑芯P800是个什么水平?
从纸面参数看,昆仑芯P800有一个非常突出的优点,就是功耗控制得极好,150W到160W的功耗,远低于竞争对手。这意味着在组建大规模集群时,能耗和散热成本会更有优势。
昆仑芯P800真正的杀手锏在于它的架构设计。
P800的XPU-R架构,从硬件上就把计算单元和通信单元分开了。这就好比把单行道改成了双向八车道,旁边还修了条专门给行人走的人行道。计算和通信各走各的路,互不干扰,可以同时进行。
百度把这个技术叫做“通算融合”。通过精巧的调度,可以让数据传输的等待时间,完全被计算过程所掩盖。比如,在计算第一块数据的时候,第二块数据已经在传输的路上了,等第一块算完,第二块正好无缝衔接。这样一来,芯片的利用率被大大提高了。
基于这种能力,百度还推出了“昆仑芯超节点”方案,能把64张昆仑芯P800塞进一个机柜里。卡与卡之间的数据交换从速度较慢的“机间通信”变成了速度飞快的“机内通信”,带宽直接提升8倍,单机训练性能提升10倍。
模型是这么炼成的
它的底层架构融合了业界的优秀成果。语言模型部分,小参数的3B版本基于Qwen2.5,而主力8B和70B版本则基于Llama 3.1。视觉编码器用了InternViT,最高能处理4K分辨率的超高清图像。
精髓在于它的训练方法,百度设计了一套创新的“四阶段训练管线”,像一个精密的四步升级程序。
“跨模态对齐”。这个阶段的目标很简单,就是先让模型的语言部分和视觉部分认识一下,建立最基础的连接。训练的时候,只更新它俩之间的连接件(一个叫MLP Adapter的东西),语言和视觉模块本身都先冻结,避免互相影响。
“通用知识注入”。这个阶段开始给模型疯狂“喂”数据,总共投喂了2.66T tokens的通用知识数据。同时,模型的全部参数都放开进行训练。这个阶段的目标是为模型打下坚实的通识基础,让它成为一个见多识广的“通才”。
“领域增强知识注入”。在成为“通才”之后,就要开始培养它的“专长”了。百度精选了大量高质量的OCR、文档理解、数学解题等领域的数据,对模型进行专项强化训练。为了防止模型在学习专业知识时忘记了通用知识(这个现象在AI训练中被称为“灾难性遗忘”),训练时还会掺入一部分通用数据。
“后训练”。经过前三个阶段,模型已经能力很强了,但可能还不太“听话”。这个阶段就是通过大量的指令微调数据,教模型如何更好地理解和遵循人类的指令,让它变得更像一个得力的助手。
第三阶段使用的专业数据,是百度通过一套高精度数据合成管线自己“造”出来的。
目前,Qianfan-VL的全系列模型已经在GitHub和Hugging Face等平台全面开源,企业和开发者可以自由下载使用。
百度智能云的千帆平台也提供了在线体验和部署服务。
GitHub:
https://github.com/baidubce/Qianfan-VL
Hugging Face:
https://huggingface.co/baidu/Qianfan-VL-70B
https://huggingface.co/baidu/Qianfan-VL-8B
https://huggingface.co/baidu/Qianfan-VL-3B
ModelScope:
https://modelscope.cn/organization/baidu-qianfan
本文来源:AIGC开放社区,原文标题:《百度Qianfan-VL开源,纯国产自研昆仑芯跑出世界一流》