多模态推理被视为通向通用人工智能(AGI)的关键能力之一,让 AI 能够像人类一样综合感知、理解与决策。其中,视觉-语言模型(Vision-Language Model, VLM)是实现多模态推理的核心基础。
今年7月,我们发布并开源了全球10B级效果最强的 VLM——GLM-4.1V-9B-Thinking。该模型以小搏大,展现了小体积模型的极限性能潜力,上线后迅速登上 Hugging Face Trending 榜首,并累计获得超过 13 万次下载。
今天,我们推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V(总参数 106B,激活参数 12B),并同步在魔搭社区与 Hugging Face 开源。这是我们在通向 AGI 道路上的又一探索性成果。
在线体验:
欢迎前往 z.ai,选择 GLM-4.5V 模型,上传图片或视频,即刻体验;或前往智谱清言APP/网页版,上传图片,开启“推理模式”进行体验。
此外,在保持高精度的同时,GLM-4.5V 兼顾推理速度与部署成本,为企业与开发者提供高性价比的多模态 AI 解决方案。
- API 调用价格:低至输入 2 元/M tokens,输出 6 元/M tokens
- 响应速度:达到 60-80 tokens/s
GLM-4.5V API 现已上线智谱开放平台 BigModel.cn,我们为所有新老用户准备了 2000 万 Tokens 的免费资源包。
开源多模态 SOTA
GLM-4.5V 基于智谱新一代旗舰文本基座模型 GLM-4.5-Air,延续 GLM-4.1V-Thinking 技术路线,在41个公开视觉多模态榜单中综合效果达到同级别开源模型 SOTA 性能,涵盖图像、视频、文档理解以及 GUI Agent 等常见任务。
在多模态榜单之外,我们更重视模型在真实场景下的表现与可用性。GLM-4.5V 通过高效混合训练,具备覆盖不同种视觉内容的处理能力,实现全场景视觉推理,包括:
-
图像推理(场景理解、复杂多图分析、位置识别) -
视频理解(长视频分镜分析、事件识别) -
GUI 任务(屏幕读取、图标识别、桌面操作辅助) -
复杂图表与长文档解析(研报分析、信息提取) -
Grounding 能力(精准定位视觉元素)
同时,模型新增“思考模式”开关,用户可灵活选择快速响应或深度推理,平衡效率与效果。
为帮助开发者直观体验 GLM-4.5V 的模型能力,打造专属于自己的多模态应用,我们同步开源了一款桌面助手应用。

该桌面应用可实时截屏、录屏获取屏幕信息,并依托 GLM-4.5V 处理多种视觉推理任务,日常处理如代码辅助、视频内容分析、游戏解答、文档解读等多类视觉任务,成为一个能看着屏幕和你一起工作娱乐的伙伴。我们也希望通过模型开源和API服务,赋能更多有想法的开发者,基于多模态基座模型发挥创意和想象,把过去科幻电影中的场景变为现实。
典型示例
1.视觉定位:精准识别和定位目标物体,应用潜力强大

2.前端复刻:输入网页截图或交互视频,即可复刻网页
值得注意的是,GLM-4.5V在未对视频输入进行专门训练的情况下,也能结合视频理解与代码生成能力,通过其强大的泛化能力对网页交互视频进行分析,输出相应的网页代码,成功复刻视频中展示的网页内容。
在以下示例中,GLM-4.5V能够通过分析用户浏览知乎的视频,精准识别网页中所有元素的内容、样式与布局,并还原其背后的HTML、CSS和JavaScript代码,确保运行效果与原始视频高度一致。同时,模型会分析视频帧间的动态变化,建模并实现网页交互逻辑,最终复刻出真正可交互的前端页面。此外,用户可通过圈选标记方式向模型提出修改需求,模型据此进一步优化页面,实现真正的视觉交互闭环。
3.图像识别与推理:视觉神探,精准识别图像细节并推理背景信息

为验证GLM-4.5V的地点识别能力,我们让其参与"图寻游戏"全球积分赛,与国内两万余名顶尖人类玩家同台竞技。该游戏要求玩家在限定时间内,根据风景街景图片推测拍摄地的经纬度,比拼速度与精度。
- 参赛16小时:GLM-4.5V击败99%的人类玩家
- 参赛7天:模型攀升至全球第66名
这一结果充分证明了GLM-4.5V在复杂视觉推理任务中的卓越表现。
4.复杂文档深度解读: 不止擅长信息提取、总结和翻译,也能表达自己的见解
例如,我们可以给GLM-4.5V上传一份图文并茂的技术报告,让它翻译并解读其中的技术亮点。
5.强大的 GUI Agent 能力,为 Agent 任务打基础

技术细节

GLM-4.5V 由视觉编码器、MLP 适配器和语言解码器三部分组成,支持 64K 多模态长上下文,支持图像与视频输入,并通过三维卷积提升视频处理效率。模型采用双三次插值机制,有效增强了模型对高分辨率及极端宽高比图像的处理能力与稳健性;同时,引入三维旋转位置编码(3D-RoPE),显著强化了模型对多模态信息的三维空间关系的感知与推理能力。
GLM-4.5V 采用三阶段策略:预训练、监督微调(SFT)和强化学习(RL)。其中,在预训练阶段,我们结合大规模图文交错多模态语料和长上下文内容,强化了模型对复杂图文及视频的处理能力;在 SFT 阶段,我们引入了显式“思维链”格式训练样本,增强了 GLM-4.5V 的因果推理与多模态理解能力;最后,RL 阶段,我们引入全领域多模态课程强化学习,通过构建多领域奖励系统(Reward System),结合可验证奖励强化学习(RLVR)与基于人类反馈的强化学习(RLHF),GLM-4.5V 在 STEM 问题、多模态定位、Agent 任务等方面获得全面优化。
本文作者:智谱,来源:智谱,原文标题:《全球多模态推理新标杆,GLM-4.5V正式上线并开源》