赛道Hyper | 端侧AI模型：Meta加入角逐

周源

2023/07/23 09:17

站在高通的肩膀上，端侧AI应用，指日可待？

ChatGPT虽好，奈何闭源，而且使用门槛太高（不友好），因此C端商业化难以大规模落地。

但在7月18日，Meta携手微软和高通，掀翻牌桌：微软旗下云服务Azure为Meta AI新一代开源大模型Llama 2提供云服务；同时，Llama 2还能在高通芯片上运行，实现智能端侧AI能力。

华尔街见闻注意到，OpenAI刚于7月22日宣布，下周将发布ChatGPT安卓App。这相当于直面Meta AI的端侧大模型C端应用挑战。

若端侧AI大模型真能实打实落地，那么以智能终端为代表的消费电子创新春天，将有望再次来临。

Meta和微软、高通想干嘛

开源大模型本身，已屡见不鲜，算不上新奇。

Llama，简单说，这是一个纯文本（只接受文本输入）的语义训练大模型，称为“Llama-Chat”可能更为准确。Llama的特点在于开源（GPT和PaLM闭源）和免费，初版于今年2月发布，训练时间是今年1-7月。整个过程用了330万个GPU小时，硬件用英伟达A100-80GB GPU，能耗350W-400W，训练总成本最高达到4500万美元。

Llama2全局批量规格（上下文长度）是4M tokens，比初代Llama提高1倍，与GPT-3.5等同，参数规模最高700亿（另包括70亿、130亿和340亿三种参数变体），训练语料规模为2万亿tokens。其中，700亿参数规模的以GQA（分组查询注意力机制：Grouped-Query Attention）提高推理可扩展性。

什么是token？

这是大模型处理与生成语言文本的基本单位。可以这么理解，用于训练的tokens越多，AI智能水平也相应越高。

照例做个对比：谷歌新一代大模型PaLM 2，训练语料规模3.6万亿tokens；GPT-3是3000亿，GPT-4据推测可能也突破了数万亿。

就AI能力看，Llama2与GPT-4仍有差距，也比不上Google的PaLM2。Llama 2性能难撼OpenAI的市场地位，通过免费商用，Meta却有望利用开源生态实现弯道超车。

这里有必要做进一步解释闭源模型的缺点。

最受关注的问题就一个：安全性。

用ChatGPT对话模型训练时，由于闭源，因此对话内容的数据，实际上相当于进了一个黑盒。

当涉及隐私或敏感信息，比如金融数据、个人隐私或商业产品秘密等信息，通过ChatGPT对话模型，很可能会在其他训练过程中成为“公共信息”而遭遇泄露。比如，著名的“ChatGPT Grandma Exploit”，就直接公开了微软的Windows 11的有效序列号。

在B端，这种黑盒效应的后果或许更严重。

相当多的企业，并不会限于调取标准LLM能力，他们会根据自己的业务需求，做LLM数据集的专有场景定制，以解决特定问题。但由于闭源黑盒问题，这些特定场景的业务数据很难保证私有用途。一旦泄露，很可能这些企业的业务会有重大损失，或优势地位不再。

此次Meta与微软和高通联手部署端侧模型，其意义远超模型升级。若结合高通在今年2月首次推出端侧AI模型能力演示，不难想像，消费电子——尤其是智能移动终端（手机，也包括IoT）新一轮技术创新浪潮风暴，已在快速酝酿。

Meta AI与微软的主要合作内容，是向Llama 2的全球开发者提供Azure云服务。也就是说，未来基于Windows系统，应用者都能用Llama 2的AI能力。这就大幅降低了C端应用AI LLM的门槛，无需用户自己配置软件环境。

据微软透露，Llama 2已针对Windows做了优化，能直接在Windows本地实现部署进而运行。

一旦微软推出基于Llama 2模型的Windows操作系统更新（Windows目前是全球市场占有率最高的操作系统），那么全球用微软视窗操作系统的PC用户，就能一键实现端侧AI模型的AGI能力，个性化的AI应用浪潮将风起云涌。

端侧和混合AI，孰重？

Meta AI与高通的合作更具有想象空间。

华尔街见闻从高通获悉，高通和Meta正在合作优化Meta Llama 2大语言模型直接在终端侧的执行，这个过程无需仅依赖云服务，就能在智能手机、PC、VR/AR头显和汽车等终端上运行Llama 2一类的生成式AI模型。这将支持开发者节省云成本，并为用户提供更加私密、可靠和个性化的体验。

高通计划支持基于Llama 2的终端侧AI部署，以开发全新的AI应用。这将支持B端公司、合作伙伴和开发者构建智能虚拟助手、生产力应用、内容创作工具和娱乐等用例。这些运行在骁龙芯片上的终端侧实现的新AI体验，可在没网络连接的区域、甚至是飞行模式下工作。

高通计划从2024年起，在搭载骁龙平台的终端上支持基于Llama 2的AI部署。现在开发者可以开始使用高通AI软件栈（Qualcomm AI Stack）面向终端侧AI做应用优化。高通AI软件栈是一套支持在骁龙平台上更高效处理AI的专用工具，让轻薄的小型终端也能支持终端侧AI。

与部分应用技术公司在端侧尝试单点AI模型应用不一样，高通在此领域的布局极具深度。

今年2月，高通第二代骁龙8移动平台已可支持参数超过10亿的AI模型运行，做了全球首次端侧运行超过10亿参数模型（Stable Diffusion）的演示。

对于端侧能有效支持的模型规模，高通全球副总裁兼高通AI负责人侯纪磊认为，在广泛的用例中有很多基于10亿参数为单位，从10亿到100亿便能涵盖相当多数的生成式 Al，并可提供优异效果。

6月中旬，高通也曾演示了ControlNet图像生成图像模型。这个模型拥有15亿参数，可完全在手机上运行。ControlNet是一项生成式AI解决方案，被称为语言-视觉模型（LVM），能通过调整输入图像和输入文本描述，更精准地控制生成图像。

在这项演示中，高通只用不到12秒即可在移动终端上生成AI图像，无需访问任何云端，便能提供高效、有趣、可靠且私密的交互式用户体验。

据侯纪磊透露，未来数月内，高通有望支持参数超过100亿的模型在终端侧运行，2024年将能支持参数超过200亿的模型。此外通过全栈式Al优化，未来也将进一步缩短大模型的推理时间。

高通在做端侧AI大模型部署时的技术创新主要包括：高通AI模型增效工具包（AIMET）、高通AI软件栈和高通AI引擎。此外，高通AI研究的另一项全球首创的技术，即在移动终端上的1080p视频编码和解码过程。

神经网络编解码器用途十分广泛：可针对特定视频需求做定制，通过生成式AI的优势对感知质量做优化，可扩展至全新模态，在通用AI硬件上运行。但同时，这也后悔带来难以在计算能力有限的终端上应对的诸多挑战。为此，高通设计了神经网络视频帧间压缩架构，支持在终端上做1080p视频编码。

高通在端侧部署AI模型的技术虽然进展很快，但高通认为，混合AI才是AI的未来：混合AI架构在云端和边缘终端间分配并协调AI工作负载，云端和边缘终端如智能手机、汽车、个人电脑和物联网终端协同工作，能实现更强大、更高效且高度优化的AI。

节省成本是混合AI在未来占据主流的主要推动因素。

举例来说，据估计，每次基于生成式AI的网络搜索查询（Query），成本是传统搜索的10倍。混合AI将支持生成式AI开发者和提供商利用边缘终端的计算能力降低成本。混合AI架构或终端侧AI能在全球范围带来高性能、个性化、隐私和安全等优势。

若高通的判断更符合未来AI应用的发展方向，那么云计算和端侧AI计算必然会实现融合，而端侧AI模型以何种形式（系统级还是单个节点？）实现持续落地，其间也充满新的行业或商业模式的全新技术创新空间。无论如何，以IoT或智能手机为代表的消费电子，新一轮技术创新浪潮，已近在眼前。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

风险提示及免责条款

赛道Hyper | 端侧AI模型：Meta加入角逐

Meta和微软、高通想干嘛

端侧和混合AI，孰重？

Meta四季度业绩、一季度指引、全年资本支出超预期，股价盘后大涨逾11% | 财报见闻

中国AI的“Max时刻”！千问最强模型开启第二增长曲线

阿里发布千问最强推理模型Qwen3-Max-Thinking，性能媲美GPT-5.2、Gemini 3 Pro

扎克伯格的反击开始了？Meta超级实验室本月已交付首批关键AI模型

AI人格集体黑化？Anthropic首次「赛博切脑」，物理斩断毁灭指令