华为于8月12日在2025金融AI推理应用落地与发展论坛上,正式发布AI推理创新技术UCM,这项突破性成果有望降低中国AI推理对HBM(高带宽内存)技术的依赖,提升国内AI大模型推理性能。
华为推出的UCM(推理记忆数据管理器)是一款以KV Cache为中心的推理加速套件,融合多类型缓存加速算法工具,通过分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,实现高吞吐、低时延的推理体验。
华为此次与中国银联共同发布AI推理最新应用成果,将完善中国AI推理生态的关键部分。据证券时报最新获悉,华为计划于2025年9月正式开源UCM,届时将在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区,并共享给业内所有Share Everything(共享架构)存储厂商和生态伙伴。
这项技术发布正值AI产业从"追求模型能力的极限"转向"追求推理体验的最优化"的关键节点,推理体验直接关联用户满意度和商业可行性,成为衡量模型价值的重要标准。
UCM将提升推理系统效率和性能
UCM是一款以KV Cache(键值缓存)为中心的推理加速套件,融合多类型缓存加速算法工具,可以分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,从而降低每个Token(词元)的推理成本。KV Cache是一种用于优化计算效率、减少重复运算的关键技术,但是需要占用GPU(图形处理器)的显存存储历史KV(键值)向量,生成的文本越长,缓存的数据量越大。
推理体验直接关系到用户与AI交互时的感受,包括回答问题的时延、答案的准确度以及复杂上下文的推理能力等方面。UCM技术通过优化KV Cache记忆数据管理,能够降低每Token的推理成本。
随着信息技术应用创新产业的国产化改造提速,各行业逐步意识到需要加速构建国产推理生态。UCM的核心价值在于提供更快的推理响应、更长的推理序列等。
以提供更长的推理序列为例,UCM通过动态KV逐层卸载、位置编码扩展等组合技术,将超长序列的Cache(缓存)分层卸载至外置专业存储,利用算法突破模型和资源限制,实现10倍级推理上下文窗口扩展。
华为数据存储产品线副总裁樊杰在接受央广财经记者专访时指出,AI下一阶段的突破将高度依赖高质量行业数据的释放,而存力正是激活数据价值、赋能垂直行业的关键基础设施。华为通过技术优化,推出的高性能AI存储,能够将小时级数据加载缩短至分钟级,使算力集群效率从30%提升至60%。
UCM提供更低推理成本,产业链公司迎来机遇
HBM是解决"数据搬运"的关键技术。当HBM不足时,用户使用AI推理的体验会明显下降,导致出现任务卡顿、响应慢等问题。华为此次技术突破有望缓解这一瓶颈。
据悉,UCM可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动,同时融合多种稀疏注意力算法实现存算深度协同,使长序列场景下TPS(每秒处理token数)提升2至22倍,从而降低每个Token的推理成本。
目前,AI大模型训练对内存带宽需求呈指数级增长,传统DDR内存已无法满足需求。HBM通过3D堆叠技术将DRAM芯片垂直堆叠,最新的HBM3E可实现高达819GB/s的带宽,较DDR5提升5倍以上。在AI服务器中,HBM的成本占比约为20%至30%。
长城证券表示,从国内大模型的进展来看,一方面,伴随国内外大模型的持续升级,AI推理能力要求更高,对算力的需求也在持续增加;另一方面,芯片的性能不断提升也同时促进大模型等在AI产业持续取得突破。同时,随着AI模型仿真活人的能力持续提升,助力更多 Al+应用商业场景落地,基于AI的数字互动有望成为下一个互联网和游戏产业的热门赛道,算力各环节有望进一步发展。