赛道Hyper | 智谱GLM-4.5:技术突破成因与行业价值

44
不唯参数规模论,只看调用成本值。

作者:周源/华尔街见闻

7月28日,智谱AI发布旗舰模型GLM-4.5并开源。GLM-4.5是一款专为智能体应用研发的基础模型,在性能、成本控制与多能力融合等方面均有出色表现。

在这些技术突破的背后,哪些因素起了支撑作用?

智谱AI核心团队主要来自清华大学KEG(知识工程)实验室:董事长刘德兵、CEO张鹏和总裁王绍兰均为KEG实验室核心成员,张鹏和王绍兰同为清华创新领军工程博士,首席科学家唐杰曾任清华大学计算机系教授。

从GLM-1到GLM-4.5经历四年多迭代。

早期(2021年)GLM模型(10B)就已探索了Transformer架构的优化,2022年推出参数规模达130B的GLM-130B,2023年推出的GLM-3尝试了混合专家(MoE)架构的轻量化设计,为后续参数效率提升奠定基础,其小步快跑的迭代模式,让团队对模型架构的理解不断深化。

GLM系列的LLM(大语言模型:Large Language Model)基于Transformer架构构建。

GLM-130B采用DeepNorm(一种用于稳定深层Transformer模型训练的归一化方法)作为层归一化(Layer Normalization)策略,并在前馈网络(FFN)中使用旋转位置嵌入(RoPE),以及配备GeLU激活函数的门控线性单元(GLU:Gated Linear Unit,常用于增强模型对特征的选择性和处理)。

这些都表明早期GLM模型对Transformer架构做了探索与优化。

之后的GLM-3,采用独创的多阶段增强预训练方法,基于当时最新的高效动态推理和显存优化技术,其推理框架在相同硬件和模型条件下,相较于当时最佳的开源实现,推理速度提升2-3倍,推理成本降低1倍。

这说明GLM-3在模型架构优化等方面有显著进展,为后续参数效率提升奠定了基础,也有助于对不同任务的特征分布,形成长期数据积累。

业界有些团队或成立时间较短,或中途转向大模型研发,缺乏这种持续的技术沉淀,难以在架构细节上实现精细化优化。

​多数团队在大模型研发中更倾向于堆参数量的密集型架构,认为参数量与性能呈正相关。2023年到2024年底,“百模大战”期间,众多企业将参数量、评测分数作为核心指标,试图通过扩大模型规模来提升模型能力。

大模型中激活参数占比与模型架构、稀疏激活技术等相关,若企业过于追求参数量而未优化架构和技术,可能导致激活参数占比低。

智谱AI做法与众不同,从GLM-2开始,坚持“高效参数”路线:不去盲目扩大总参数量,而是通过优化专家模块的协同机制提升效率。

比如GLM-4.5的3550亿总参数中,激活参数320亿,占比约9%,每个专家模块仅负责特定领域任务(如代码模块专注Python与JavaScript,推理模块专注数学与逻辑),模块间通过轻量化路由层衔接,避免密集型架构中参数冗余的问题。

同时发布的还有GLM-4.5-Air,总参数1060亿,激活参数120亿,激活占比约11%。

这种路径需要更细致的拆解任务类型,而部分团队因担心架构复杂度上升导致研发周期延长,仍选择更稳妥的密集型架构。

至于参数激活占比,这个关系到调用推理的商业成本:相同参数量下,激活参数占比低意味着更多参数未有效参与推理计算,造成算力浪费,导致推理成本上升。

GLM-4.5之所以能做到“参数效率翻倍,API价格仅为Claude(美国人工智能初创公司 Anthropic发布的大模型家族)的1/10(输入0.8元/百万 tokens、输出2元/百万tokens),速度超100tokens/秒”,就因为激活参数占比较高。

GLM-4.5的训练数据采用“通用+垂直”的双层结构:底层是15万亿token的通用文本(与多数团队类似),上层是8万亿token的垂直领域数据,且按“推理-代码-智能体”三类任务单独标注。

插一句:在深度学习尤其是自然语言处理(NLP)领域,token是指文本中的最小有意义的逻辑单元,也是模型用来表示自然语言文本的基本单位,还是模型计费单元,类似于计算存储和处理二进制数据的基本单位——字节(byte)。

GLM-4.5的标注方法并非简单分类,而是为每个任务设计专属的训练目标,比如推理任务侧重逻辑链完整性,代码任务侧重语法正确性。

​智谱AI是国内首批推进大模型开源的企业之一,2023年GLM-2开源后积累规模庞大的开发者社区。这些开发者不仅反馈bug,更贡献了大量轻量化部署方案。GLM-4.5的“思考/非思考模式”切换功能,底层调度算法很可能来自社区开发者的优化建议。

​智谱AI的官方通稿称,“首次实现推理、代码、Agent等多能力原生融合”,那么多能力融合的技术壁垒是什么?为什么此前业界没有同类模型能力?

多能力融合需解决模块协同难题:推理模块的逻辑思维与代码模块的语法规则分属不同认知范式,强行融合易导致能力稀释。

此前业界有些团队尝试通过“拼接式”融合(在推理模型后嫁接代码模块)实现,但模块间缺乏共享参数,导致响应速度大幅下降。

GLM-4.5采用了统一底层架构,需要从模型设计初期就规划参数共享机制,这对架构设计能力要求极高,多数团队暂未突破这一技术瓶颈。

若以此说业界有些团队技术能力较差,也有失偏颇;多数情况下,很多技术团队受商业化的压力较大,因此更倾向于快速推出闭源商业模型意图变现,导致研发周期被压缩,测试时间有限,在推动多能力融合时出现稳定性问题,可感知的这类问题,比如连续调用工具时概率性崩溃。

自2019年成立以来,智谱AI经历了至少11轮融资,故而资金压力应当不是很大,看上去在优化架构时显得很有耐心,能用较长时间做多能力协同的专项优化,这种耐心在当前追求短期回报的行业环境中较为稀缺。

智谱GLM-4.5的突破,本质是技术积累、路径选择与生态协同的综合结果。

这个多能力融合大模型的推出,表明大模型竞争已从单点参数规模转向系统效率与生态活力,这或许为行业提供了新的发展参照和性能评价标准。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关阅读