7月28日晚间,智谱发布新一代旗舰模型GLM-4.5,一款专为智能体应用打造的基础模型,该模型在HuggingFace与ModelScope平台同步开源。
根据官方介绍:
- GLM-4.5 在包含推理、代码、智能体的综合能力达到开源 SOTA,在真实代码智能体的人工对比评测中,实测国内最佳;
- 采用混合专家(MoE)架构,包括 GLM-4.5:总参数量 3550 亿,激活参数 320 亿;GLM-4.5-Air:总参数 1060 亿,激活参数 120 亿;
- 两种模式:用于复杂推理和工具使用的思考模式,及用于即时响应的非思考模式;
-
高速、低成本:API 调用价格低至输入 0.8 元/百万tokens、输出 2 元/百万tokens;高速版最高可达 100 tokens/秒。
融合推理、编码与智能体能力,综合性能进入全球前三
GLM-4.5 是智谱首次在单一模型中整合多种核心能力的尝试,尤其面向真实智能体任务进行系统优化。在 MMLU Pro、MATH500、LiveCodeBench、TAU-Bench 等 12 项评测中,GLM-4.5 综合排名全球第三,位列国产和开源模型首位。
模型采用混合专家(MoE)架构,提供两个版本:
-
GLM-4.5:总参数 3550 亿,激活参数 320 亿;
-
GLM-4.5-Air:参数缩减至 1060 亿,激活参数 120 亿。
训练数据覆盖 15 万亿 tokens 的通用语料,另有 8 万亿 tokens 针对代码、推理、Agent 任务的精调数据,并辅以强化学习进行能力增强。
智谱构建了涵盖六大开发场景的 52 个编程任务,对 GLM-4.5 与 Claude Code、Kimi-K2、Qwen3-Coder 等模型进行对比测试。
结果显示,GLM-4.5 在任务完成度与工具调用可靠性方面表现优异,虽然在部分维度仍略逊于 Claude-4-Sonnet,但已能胜任多数实际开发场景。
参数效率与生成速度实现突破,降低使用门槛
在参数利用率方面,GLM-4.5 相比 DeepSeek-R1 和 Kimi-K2 显著精简,在 SWE-bench Verified 榜单中表现出更优的性能/参数比。
调用价格方面,GLM-4.5 API 输入价格为 0.8 元/百万 tokens,输出价格为 2 元/百万 tokens。
高速版本支持最高 100 tokens/秒 的生成速率,可支撑高并发部署需求。
原生支持复杂 Agent 应用,多个交互样本已开放体验
为展示其 Agent 能力,智谱同步发布多个真实场景 DEMO,包括:
-
模拟搜索引擎:可进行搜索、分析与聚合展示
-
弹幕视频平台、微博平台模拟器:具备内容生成与界面控制能力
-
可玩的 Flappy Bird 游戏:展示其前端动画生成与逻辑控制能力
-
图文自动排版的 PPT 工具:支持16:9演示文稿、社交媒体长图等多种格式输出