“全球100B级效果最强”!智谱新一代视觉推理模型GLM-4.5V上线并开源

智谱
199
GLM-4.5V总参数 106B,激活参数 12B,在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA 性能,新增“思考模式”开关,同步开源桌面助手应用。API调用价格低至输入2元/M tokens,输出6元/M tokens。 响应速度60-80 tokens/s。

多模态推理被视为通向通用人工智能(AGI)的关键能力之一,让 AI 能够像人类一样综合感知、理解与决策。其中,视觉-语言模型(Vision-Language Model, VLM)是实现多模态推理的核心基础。

今年7月,我们发布并开源了全球10B级效果最强的 VLM——GLM-4.1V-9B-Thinking。该模型以小搏大,展现了小体积模型的极限性能潜力,上线后迅速登上 Hugging Face Trending 榜首,并累计获得超过 13 万次下载。

今天,我们推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V(总参数 106B,激活参数 12B),并同步在魔搭社区与 Hugging Face 开源。这是我们在通向 AGI 道路上的又一探索性成果。

在线体验:

欢迎前往 z.ai,选择 GLM-4.5V 模型,上传图片或视频,即刻体验;或前往智谱清言APP/网页版,上传图片,开启“推理模式”进行体验。

此外,在保持高精度的同时,GLM-4.5V 兼顾推理速度与部署成本,为企业与开发者提供高性价比的多模态 AI 解决方案。

  • API 调用价格:低至输入 2 元/M tokens,输出 6 元/M tokens
  • 响应速度:达到 60-80 tokens/s

GLM-4.5V API 现已上线智谱开放平台 BigModel.cn,我们为所有新老用户准备了 2000 万 Tokens 的免费资源包。

开源多模态 SOTA

GLM-4.5V 基于智谱新一代旗舰文本基座模型 GLM-4.5-Air,延续 GLM-4.1V-Thinking 技术路线,在41个公开视觉多模态榜单中综合效果达到同级别开源模型 SOTA 性能,涵盖图像、视频、文档理解以及 GUI Agent 等常见任务。

在多模态榜单之外,我们更重视模型在真实场景下的表现与可用性。GLM-4.5V 通过高效混合训练,具备覆盖不同种视觉内容的处理能力,实现全场景视觉推理,包括:

  • 图像推理(场景理解、复杂多图分析、位置识别)
  • 视频理解(长视频分镜分析、事件识别)
  • GUI 任务(屏幕读取、图标识别、桌面操作辅助)
  • 复杂图表与长文档解析(研报分析、信息提取)
  • Grounding 能力(精准定位视觉元素)

同时,模型新增“思考模式”开关,用户可灵活选择快速响应或深度推理,平衡效率与效果。

为帮助开发者直观体验 GLM-4.5V 的模型能力,打造专属于自己的多模态应用,我们同步开源了一款桌面助手应用

该桌面应用可实时截屏、录屏获取屏幕信息,并依托 GLM-4.5V 处理多种视觉推理任务,日常处理如代码辅助、视频内容分析、游戏解答、文档解读等多类视觉任务,成为一个能看着屏幕和你一起工作娱乐的伙伴。我们也希望通过模型开源和API服务,赋能更多有想法的开发者,基于多模态基座模型发挥创意和想象,把过去科幻电影中的场景变为现实。

典型示例

1.视觉定位:精准识别和定位目标物体,应用潜力强大

GLM-4.5V 能够根据用户提问,精准识别、分析、定位目标物体并输出其坐标框。该能力在现实世界拥有广阔的应用场景,例如安全与质量检查、高空遥感监测分析。相较于传统的基于视觉模型的物体识别,GLM-4.5V 凭借更丰富的世界知识与更强大的语义理解能力,能够通过推理理解更复杂的定位指令。

2.前端复刻:输入网页截图或交互视频,即可复刻网页

GLM-4.5V具备强大的推理与代码生成能力,能够对上传的网页截图进行分析,并将其转化为结构化的网页代码。与简单的图像元素识别不同,GLM-4.5V能够深入理解并推断元素间的逻辑关系、布局规则和交互意图,从而生成高度准确且功能完整的网页代码。

值得注意的是,GLM-4.5V在未对视频输入进行专门训练的情况下,也能结合视频理解与代码生成能力,通过其强大的泛化能力对网页交互视频进行分析,输出相应的网页代码,成功复刻视频中展示的网页内容。

在以下示例中,GLM-4.5V能够通过分析用户浏览知乎的视频,精准识别网页中所有元素的内容、样式与布局,并还原其背后的HTML、CSS和JavaScript代码,确保运行效果与原始视频高度一致。同时,模型会分析视频帧间的动态变化,建模并实现网页交互逻辑,最终复刻出真正可交互的前端页面。此外,用户可通过圈选标记方式向模型提出修改需求,模型据此进一步优化页面,实现真正的视觉交互闭环。

3.图像识别与推理:视觉神探,精准识别图像细节并推理背景信息

GLM-4.5V具备强大的感知与推理能力。一个典型应用是:在不依赖搜索工具的情况下,模型能通过图像中的细微线索推理出背景信息。例如,上传任意风景或街拍图片后,GLM-4.5V可分析植被特征、气候痕迹、建筑风格等要素,精准推测图片拍摄地点及大致经纬度。
 

为验证GLM-4.5V的地点识别能力,我们让其参与"图寻游戏"全球积分赛,与国内两万余名顶尖人类玩家同台竞技。该游戏要求玩家在限定时间内,根据风景街景图片推测拍摄地的经纬度,比拼速度与精度。

- 参赛16小时:GLM-4.5V击败99%的人类玩家  

- 参赛7天:模型攀升至全球第66名  

这一结果充分证明了GLM-4.5V在复杂视觉推理任务中的卓越表现。

4.复杂文档深度解读: 不止擅长信息提取、总结和翻译,也能表达自己的见解

GLM-4.5V可以阅读长达数十页、含有大量图表的复杂长文本,能够对文本进行总结、翻译、图表提取等操作;此外,还能在给定信息的基础上输出自己的"观点"。与传统的OCR信息提取+文本模型解读的方式不同,GLM-4.5V会像人类一样,以视觉方式读取文档中的每一页图片,避免了信息提取过程中的错误传递,实现了文字与图像的同时理解,因此对于图表、表格等视觉化、结构化信息的保留和解读会更加准确。

例如,我们可以给GLM-4.5V上传一份图文并茂的技术报告,让它翻译并解读其中的技术亮点。

5.强大的 GUI Agent 能力,为 Agent 任务打基础

基于强大的视觉推理能力,GLM-4.5V 能够识别和处理电子屏幕画面,在 GUI 环境中进行对话问答、图标定位等任务。同时,我们将 GUI Agent 的能力融合到基座模型,模型能够结合当前 GUI 界面与用户指令输出相应操作,配合相应的 Agent 软件能够完成复杂的 GUI Agent 任务,为广大 Agent 项目提供可靠的基座模型支持。
例如,我们可以给 GLM-4.5V 传入一张陈列了数十个商品的电商页面,让它识别商品图中的折扣价格与标题中的原价,并且计算出折扣比例。

技术细节

 

GLM-4.5V 由视觉编码器、MLP 适配器和语言解码器三部分组成,支持 64K 多模态长上下文,支持图像与视频输入,并通过三维卷积提升视频处理效率。模型采用双三次插值机制,有效增强了模型对高分辨率及极端宽高比图像的处理能力与稳健性;同时,引入三维旋转位置编码(3D-RoPE),显著强化了模型对多模态信息的三维空间关系的感知与推理能力。

GLM-4.5V 采用三阶段策略:预训练、监督微调(SFT)和强化学习(RL)。其中,在预训练阶段,我们结合大规模图文交错多模态语料和长上下文内容,强化了模型对复杂图文及视频的处理能力;在 SFT 阶段,我们引入了显式“思维链”格式训练样本,增强了 GLM-4.5V 的因果推理与多模态理解能力;最后,RL 阶段,我们引入全领域多模态课程强化学习,通过构建多领域奖励系统(Reward System),结合可验证奖励强化学习(RLVR)与基于人类反馈的强化学习(RLHF),GLM-4.5V 在 STEM 问题、多模态定位、Agent 任务等方面获得全面优化。

本文作者:智谱,来源:智谱,原文标题:《全球多模态推理新标杆,GLM-4.5V正式上线并开源》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关阅读