赛道Hyper | AI大模型向智能移动端侧狂奔

周源

2023/07/16 15:44

荣耀的意外、华为的努力和高通的默进。

智能手机革命性的技术突破停滞已久。GPT出现后，业界逐渐达成共识：在智能终端（包括手机）落地端侧大模型，将再次拉开激动人心的重大创新的大幕。

在上海MWC 2023期间，荣耀CEO赵明宣称，荣耀将在智能手机端推动部署端侧大模型，以此作为荣耀新一轮产品技术攻坚的起点。但在7月12日，赵明没有披露其新一代折叠屏Magic V2端侧AI大模型的相关信息。

目前，端侧大模型的呈现形式均为软件。华尔街见闻了解到，荣耀AI大模型也将呈以软件形式，很可能被整合在MagicOS 8.0版本中。

不同于荣耀提出的在智能手机端部署AI大模型的能力着眼于未来，今年2月，高通已首次在Android智能手机上部署Stable Diffusion模型，十多秒即能生成AI图像。

高通产品管理高级副总裁兼AI负责人Ziad Asghar认为，大模型将迅速重塑人机交互方式。

高通先行：洞察个体需求

7月12日，荣耀发布新一代旗舰机“Magic V2”。在此之前的6月29日，荣耀CEO赵明曾公开宣称，Magic V2将具有革命性的越级体验。荣耀希望以此与行业一起，打破苹果一家独大局面。赵明同时表示，荣耀将率先将AI大模型引入端侧。

但在7月12日，赵明对Magic V2的技术特性或产品特征等信息的阐述，着重的是该机型的厚度（9.9mm）和重量（231克），却并未涉及端侧AI大模型。此举与赵明此前对Magic V2的端侧AI大模型吹风形成鲜明对比。若是细品赵明在6月29日的说法——“未来将率先把AI大模型引入端侧”，赵明或许意有所指。据华尔街见闻了解，未来荣耀要发布的MagicOS 8.0版，在部署AI大模型方面，很可能就会有所动作。

荣耀的AI大模型在端侧到底具有什么样的能力，这是个什么样的软件矩阵（包括编译/解码器、算力平台、能耗控制、参数数量和开发工具等），目前不得而知。

从行业层面看，高通已在今年2月首次在智能手机上实现了AI模型部署。到今年5月，高通部署的Stable Diffusion模型参数已增至10亿+。

Stable Diffusion是一个从文本到图像的生成式AI扩散模型，能基于任何文本输入，在数十秒内创作出逼真图像。

目前AI绘画最火的模型是Midjorney和Stable Diffusion，但目前Midjourney模型没有开源。Stable Diffusion由StabilityAI公司于2022年提出，论文和代码都已开源。Stable Diffusion是Diffusion的改进版，主要作用是解决Diffusion模型的速度问题。

关于文字怎么生成图片，技术原理解释起来过于复杂。简单来说，从Stable Diffusion最初的名字“Latent Diffusion Model（LDM）”看，本质是压缩了图片的像素，尺寸变小，再通过编译器（为何提及荣耀端侧大模型包含了什么样的编译器？）将扩散压缩后的图片还原成原始尺寸，其余的过程和Diffusion模型差不多类似。

在压缩图片的过程中，提升了文本转化成图片的速度，这是Stable Diffusion的主要功能。

回到高通在安卓手机中部署的Stable Diffusion模型。实现文本转图像，只是大模型在端侧实现部署时，就像宇宙的一粒尘埃，这只是智能手机未来革命性的应用体验的一个极小的“元素”。

通过部署端侧大模型的数字助手，将成为一种超越想象的存在。未来的用户，将有幸通过智能手机操控一切商业服务，包括餐饮、各类订票、专业咨询、娱乐、摄影摄像、撰稿、办公、参与金融活动等等。

这就真能实现高通这位AI负责人Ziad Asghar说的那样，“大模型有能力真正重塑我们与应用交互的方式”。

只有真正在端侧部署AI大模型，智能终端的“智能”一词，才能名副其实。

赵明说，“端侧AI大模型的使命就是更好地理解用户：知道我几点睡觉，知道我喜欢吃什么，能解决我的即时需求，相当于拥有洞察我需求的能力。”

做到拥有对使用者的个性需求洞察，原因是每部智能手机包含的个人应用数据，与能理解文字、影音和图像等多模态输入的大语言模型结合，最终智能手机的数字形式（比如虚拟数字人）就能极为精准地掌握使用者的偏好。更重要的是，这样强悍的个性化体验，还能建立在保护个体隐私的基础上。

怎样解决端侧AI模型短板

目前，尚无哪家技术公司能真正全面部署端侧AI大模型。

高通和华为成为了先行者。两者的区别在于高通更加系统，从底层技术入手，比如利用高通AI软件栈（Qualcomm AI Stack）执行全栈AI优化；而华为则更侧重具体的应用体验，但相比高通，华为的探索以其具象，从而显得更具有节点尝试特征。

从技术角度看，高通在智能手机中部署Stable Diffusion模型，实际上是将Stable Diffusion模型整合在手机的混合AI架构中，进而将之作为量化、编译和硬件加速优化等AI技术，以此支撑高度智能的应用体验。

荣耀未来若真的在MagicOS 8.0中部署端侧AI大模型，也将是这个技术原理。

实际上，通过自然语言（NLP）搜索，华为P60已能以之匹配出与描述相符的照片。这一功能，也是端侧AI大模型庞大强悍能力中的一个极小的应用点。

这个应用体验的实现，背后有华为多模态大模型技术和模型小型化处理技术的支撑。华为将自然语言智能搜图模型整合进了鸿蒙系统（HarmonyOS），实现与众不同的精准自然语言手机图库搜索体验。

相比华为，高通的端侧AI大模型部署，更侧重系统性的特征。

比如，高通的全栈AI研究，是指优化跨应用、神经网络模型、算法、软件和硬件。针对Stable Diffusion，高通从Hugging Face（开源模型库公司，旗下明星开源库是“Transformers”）的FP32 1-5版本开源模型入手，通过量化、编译和硬件加速推动优化，使其能在搭载第二代骁龙8移动平台的手机上运行。

在智能终端部署AI大模型，必须要解决性能和能耗问题。

首先，通过让大模型在高通专用AI硬件上高效运行，并降低内存带宽消耗，量化不仅能提高性能，还可降低功耗。这些包括诸如自适应舍入（AdaRound）等高通AIMET量化技术，能在更低精度水平保持模型的准确性，而无需做重新训练。

其次，以高通AI模型增效工具包（AIMET）训练后量化，可实现将大模型从FP32压缩为INT8。这是基于高通AI Research创造的技术所开发的工具，目前已集成进Qualcomm AI Studio中。

这部分能力由量化完成，其作用是将大模型在精度不变的情况下，从浮点数转变成整数，节省计算时间，以及在确保模型性能的同时，压缩整体规模，使之更容易部署在终端。

此外，AI模型能以最高性能和最低功耗高效运行的关键，在于编译器。AI编译器将输入的神经网络转化为能在智能应用终端上运行的代码，同时针对时延、性能和功耗做持续优化。

值得一提是高通5G移动平台骁龙8 Gen2首度集成的AI专用Hexagon处理器，采用了独立的专用供电系统，支持微切片推理、INT4精度和Transformer网络加速等，能在提供更高性能的同时，降低能耗和内存占用。这也是高通AI软件栈的组成部分。

这些技术能应用于构成Stable Diffusion的所有组件模型，即基于Transformer的文本编码器、VAE解码器和UNet。这对于让大模型在终端上的顺利运行至为重要。

高通的全栈AI优化，最终实现了通过Stable Diffusion模型在智能手机上的运行，能达成15秒内执行20步推理，并生成一张512x512像素的图像。这是在智能手机上最快的推理速度，能媲美云端时延，且用户文本输入完全不受限制。

无论是大模型公司，还是像高通这样的终端软硬件技术公司，抑或者是荣耀和华为一类的智能终端商，当行业实现上下游协同，共同推动将AI大模型在端侧实现泛在部署，最终将真正引发新一轮智能终端的技术创新浪潮，切实担起赵明所称的在智能终端带来革命性的应用体验重任。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

风险提示及免责条款

赛道Hyper | AI大模型向智能移动端侧狂奔

高通先行：洞察个体需求

怎样解决端侧AI模型短板

国产AI算力里程碑时刻：中科曙光3套scaleX万卡超集群落地，国产最大AI算力池投入运营

首款国产全功能GPU+大模型！摩尔线程AI Coding Plan上线

成为大模型第一股后，智谱董事长首次发声：谈2513、“烧钱与造血”

首家央企AI独角兽浮出水面！背靠自研大模型，4家国家队资本背书