赛道Hyper | 端侧AI模型:Meta加入角逐

站在高通的肩膀上,端侧AI应用,指日可待?

ChatGPT虽好,奈何闭源,而且使用门槛太高(不友好),因此C端商业化难以大规模落地。

但在7月18日,Meta携手微软和高通,掀翻牌桌:微软旗下云服务Azure为Meta AI新一代开源大模型Llama 2提供云服务;同时,Llama 2还能在高通芯片上运行,实现智能端侧AI能力。

华尔街见闻注意到,OpenAI刚于7月22日宣布,下周将发布ChatGPT安卓App。这相当于直面Meta AI的端侧大模型C端应用挑战。

若端侧AI大模型真能实打实落地,那么以智能终端为代表的消费电子创新春天,将有望再次来临。

Meta和微软、高通想干嘛

开源大模型本身,已屡见不鲜,算不上新奇。

Llama,简单说,这是一个纯文本(只接受文本输入)的语义训练大模型,称为“Llama-Chat”可能更为准确。Llama的特点在于开源(GPT和PaLM闭源)和免费,初版于今年2月发布,训练时间是今年1-7月。整个过程用了330万个GPU小时,硬件用英伟达A100-80GB GPU,能耗350W-400W,训练总成本最高达到4500万美元。

Llama2全局批量规格(上下文长度)是4M tokens,比初代Llama提高1倍,与GPT-3.5等同,参数规模最高700亿(另包括70亿、130亿和340亿三种参数变体),训练语料规模为2万亿tokens。其中,700亿参数规模的以GQA(分组查询注意力机制:Grouped-Query Attention)提高推理可扩展性。

什么是token?

这是大模型处理与生成语言文本的基本单位。可以这么理解,用于训练的tokens越多,AI智能水平也相应越高。

照例做个对比:谷歌新一代大模型PaLM 2,训练语料规模3.6万亿tokens;GPT-3是3000亿,GPT-4据推测可能也突破了数万亿。

就AI能力看,Llama2与GPT-4仍有差距,也比不上Google的PaLM2。Llama 2性能难撼OpenAI的市场地位,通过免费商用,Meta却有望利用开源生态实现弯道超车。

这里有必要做进一步解释闭源模型的缺点。

最受关注的问题就一个:安全性。

用ChatGPT对话模型训练时,由于闭源,因此对话内容的数据,实际上相当于进了一个黑盒。

当涉及隐私或敏感信息,比如金融数据、个人隐私或商业产品秘密等信息,通过ChatGPT对话模型,很可能会在其他训练过程中成为“公共信息”而遭遇泄露。比如,著名的“ChatGPT Grandma Exploit”,就直接公开了微软的Windows 11的有效序列号。

在B端,这种黑盒效应的后果或许更严重。

相当多的企业,并不会限于调取标准LLM能力,他们会根据自己的业务需求,做LLM数据集的专有场景定制,以解决特定问题。但由于闭源黑盒问题,这些特定场景的业务数据很难保证私有用途。一旦泄露,很可能这些企业的业务会有重大损失,或优势地位不再。

此次Meta与微软和高通联手部署端侧模型,其意义远超模型升级。若结合高通在今年2月首次推出端侧AI模型能力演示,不难想像,消费电子——尤其是智能移动终端(手机,也包括IoT)新一轮技术创新浪潮风暴,已在快速酝酿。

Meta AI与微软的主要合作内容,是向Llama 2的全球开发者提供Azure云服务。也就是说,未来基于Windows系统,应用者都能用Llama 2的AI能力。这就大幅降低了C端应用AI LLM的门槛,无需用户自己配置软件环境。

据微软透露,Llama 2已针对Windows做了优化,能直接在Windows本地实现部署进而运行。

一旦微软推出基于Llama 2模型的Windows操作系统更新(Windows目前是全球市场占有率最高的操作系统),那么全球用微软视窗操作系统的PC用户,就能一键实现端侧AI模型的AGI能力,个性化的AI应用浪潮将风起云涌。

端侧和混合AI,孰重?

Meta AI与高通的合作更具有想象空间。

华尔街见闻从高通获悉,高通和Meta正在合作优化Meta Llama 2大语言模型直接在终端侧的执行,这个过程无需仅依赖云服务,就能在智能手机、PC、VR/AR头显和汽车等终端上运行Llama 2一类的生成式AI模型。这将支持开发者节省云成本,并为用户提供更加私密、可靠和个性化的体验。

高通计划支持基于Llama 2的终端侧AI部署,以开发全新的AI应用。这将支持B端公司、合作伙伴和开发者构建智能虚拟助手、生产力应用、内容创作工具和娱乐等用例。这些运行在骁龙芯片上的终端侧实现的新AI体验,可在没网络连接的区域、甚至是飞行模式下工作。

高通计划从2024年起,在搭载骁龙平台的终端上支持基于Llama 2的AI部署。现在开发者可以开始使用高通AI软件栈(Qualcomm AI Stack)面向终端侧AI做应用优化。高通AI软件栈是一套支持在骁龙平台上更高效处理AI的专用工具,让轻薄的小型终端也能支持终端侧AI。 

与部分应用技术公司在端侧尝试单点AI模型应用不一样,高通在此领域的布局极具深度。 

今年2月,高通第二代骁龙8移动平台已可支持参数超过10亿的AI模型运行,做了全球首次端侧运行超过10亿参数模型(Stable Diffusion)的演示。 

对于端侧能有效支持的模型规模,高通全球副总裁兼高通AI负责人侯纪磊认为,在广泛的用例中有很多基于10亿参数为单位,从10亿到100亿便能涵盖相当多数的生成式 Al,并可提供优异效果。 

6月中旬,高通也曾演示了ControlNet图像生成图像模型。这个模型拥有15亿参数,可完全在手机上运行。ControlNet是一项生成式AI解决方案,被称为语言-视觉模型(LVM),能通过调整输入图像和输入文本描述,更精准地控制生成图像。 

在这项演示中,高通只用不到12秒即可在移动终端上生成AI图像,无需访问任何云端,便能提供高效、有趣、可靠且私密的交互式用户体验。 

据侯纪磊透露,未来数月内,高通有望支持参数超过100亿的模型在终端侧运行,2024年将能支持参数超过200亿的模型。此外通过全栈式Al优化,未来也将进一步缩短大模型的推理时间。 

高通在做端侧AI大模型部署时的技术创新主要包括:高通AI模型增效工具包(AIMET)、高通AI软件栈和高通AI引擎。此外,高通AI研究的另一项全球首创的技术,即在移动终端上的1080p视频编码和解码过程。 

神经网络编解码器用途十分广泛:可针对特定视频需求做定制,通过生成式AI的优势对感知质量做优化,可扩展至全新模态,在通用AI硬件上运行。但同时,这也后悔带来难以在计算能力有限的终端上应对的诸多挑战。为此,高通设计了神经网络视频帧间压缩架构,支持在终端上做1080p视频编码。 

高通在端侧部署AI模型的技术虽然进展很快,但高通认为,混合AI才是AI的未来:混合AI架构在云端和边缘终端间分配并协调AI工作负载,云端和边缘终端如智能手机、汽车、个人电脑和物联网终端协同工作,能实现更强大、更高效且高度优化的AI。 

节省成本是混合AI在未来占据主流的主要推动因素。 

举例来说,据估计,每次基于生成式AI的网络搜索查询(Query),成本是传统搜索的10倍。混合AI将支持生成式AI开发者和提供商利用边缘终端的计算能力降低成本。混合AI架构或终端侧AI能在全球范围带来高性能、个性化、隐私和安全等优势。 

若高通的判断更符合未来AI应用的发展方向,那么云计算和端侧AI计算必然会实现融合,而端侧AI模型以何种形式(系统级还是单个节点?)实现持续落地,其间也充满新的行业或商业模式的全新技术创新空间。无论如何,以IoT或智能手机为代表的消费电子,新一轮技术创新浪潮,已近在眼前。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。