赛道Hyper | 端侧AI模型部署：苹果怎么做？

04/30 18:09

封闭的苹果商业帝国，开了一丝门缝。

作者：周源/华尔街见闻

AI已成为缺乏技术创新的智能手机行业走向“新生”的新技术焦点。

最早在端侧实现AI语音助手“Siri”的苹果公司，进入2024年以后，一改在最近两年有意忽视AI的做派，开始频频向AI递送秋波。

最近，苹果公司在其新款 MacBook Air新闻稿中，明确提到了这是一款“用于AI的全球最佳消费级笔记本电脑”，这个提法在最近两年非常罕见。此前，苹果似乎有意回避“AI”的提法，常常用ML（机器学习：Machine Learning）代替AI。

与国内一众同行不一样的地方在于，苹果推动AI技术在端侧的落地，采用“论文先行”的方式。

3月，苹果Siri团队发表了一篇名为《利用大型语言模型进行设备指向性语音检测的多模态方法》的论文，主要讨论在2023年将“Hey Siri”简化成“Siri”后，再简化掉“Siri”，从而将与苹果手机的人机对话做到无缝衔接，自然而然。

这只是苹果推动AI在端侧落地的一个微小动作，毕竟Siri在2011年就推出了。

真正能体现苹果在端侧AI技术布局和成果的是4月24日的那件事：苹果推出OpenELM。这是一个全新的开源大型语言模型（LLM）系列，能完全在单个设备上运行文本生成任务，无需连接云服务器。

也就是说，OpenELM就是眼下国内智能手机商说的AI手机在端侧的大模型部署。最近有消息持续放出，主要涉及今年6月的苹果WWDC（苹果全球开发者大会：Worldwide Developers Conference）推出的iOS 18，会内置哪些端侧AI功能。

进入2024年，苹果开始真正启动端侧AI战略。虽然苹果从未这么描述过，但就现实角度看，苹果实际上也开始“AII in AI”。

跟着微软推动AI模型瘦身

作为智能手机的全新产品定义者、移动互联网产业的开创者，苹果公司，在软件层面的受关注度不如硬件高，但实际上重要性丝毫不亚于硬件技术迭代。

4月24日，苹果在全球最大的AI开源社区——Hugging Face发布OpenELM （Open-source Efficient Language Models）系列模型。这是苹果AI赛道最近一年内最重要的举措。

OpenELM共有8个模型：4个预训练模型和4个指令调整模型，参数量分别为2.7亿（0.27B）、4.5亿（0.45B）、11亿（1.1B）和30亿（3B）。

所谓参数，是指LLM（大语言模型：Large Language Model）中人工神经元之间的连接数。通常，参数越多，则性能越强、功能越多。

从参数规模上不难看出，OpenELM模型实际上就是为端侧AI而生。

什么是预训练？这是一种是LLM生成连贯文本的方法，属于预测性练习；指令调整则是让LLM对用户的特定请求做出相关性更强的输出的方法。

苹果AI团推发表的论文指出，OpenELM模型基准测试结果在配备英特尔i9-13900KF CPU和英伟达RTX 4090 GPU、运行Ubuntu 22.04的工作站上运行；同时，苹果也在配备M2 Max芯片和64GB RAM、运行MacOS 14.4.1的MacBook Pro上做基准测试。

OpenELM模型的核心优势是采用的层级缩放策略，这种策略通过在Transformer模型的每一层中有效分配参数，从而显著提升了模型的准确率。

根据最近的测试结果统计结果显示，OpenELM在10次ARC-C基准测试中的得分率为84.9%，在5次MMLU测试中的得分率为68.8%，在5次HellaSwag测试中的得分率为76.7%。

这不是苹果在AI软件上的首次动作。

2023年10月，苹果低调发布了具有多模态功能的开源语言模型Ferret。与去年相比，4月24日的模型，技术框架相对更完整，还涵盖数据整理、模型构建与训练/调整与优化。

不知是巧合还是有别的原因，4月23日，微软也发布了可完全在智能手机（iPhone 15 Pro）上运行的Phi-3 Mini模型：参数规模3.8B（38亿），性能可与Mixtral 8x7B和GPT-3.5等模型相媲美。

更重要的是，无论是Phi-3 Mini模型，还是OpenELM模型，都能完全在智能终端的端侧运行，无需联网。

这就说明，苹果正式开始在端侧推动部署AI LLM，其参数最小模型只有0.27B，这与国内智能终端的端侧LLM相比，就参数量来说，只有不到10%。

国内为了能做到在端侧本地化运行LLM，通常依靠提高LLM压缩率，以实现在有限的内存空间（12GB-24GB）“塞入”LLM，而苹果直接减小了LLM的参数规模，但训练和推理精度并没有随之也跟着降低。

虽然在3月，苹果推出了参数规模高达30B的MM1大模型（多模态大型语言模型）——Forret模型。但从苹果开源的LLM大模型框架看，苹果在大力推动LLM的“瘦身计划”。

前所未见的动作意向不明

很明显，从2023年10月以来，苹果开始推动AI技术在终端的落地，目标是“让人工智能在苹果设备上本地运行”。今年1月苹果发表的论文《LLM in a flash：Efficient Large Language Model Inference with Limited Memory》更明显地显示苹果在向着这个目标迈进的努力。

通过OpenELM模型，苹果展示了在AI领域的技术和目标框架：OpenELM专为终端设备设计，这能优化苹果现在的多终端体验——目前展示在苹果笔电上的运行能力；其次，在小规模的LLM上兼顾性能和效率；第三，开源。

尽管如此，苹果这些自研的LLM或者一些技术框架，能否会内置在今年6月举行的WWDC 24上即将推出的iOS 18中，目前无法明确。因为，苹果还在与谷歌和OpenAI接触，不排除会在iOS内置这些竞对的AI技术。

外界现在很难获知苹果和谷歌以及OpenAI的沟通内容，也不知道苹果会和哪个公司达成AI技术的商业合作。除了这两家大名鼎鼎的技术公司，苹果还在和一家名为“Anthropic”的AI技术初创公司接触。

苹果推动与合作伙伴的技术合作，有助于加速苹果进入聊天机器人领域（与谷歌的接触主要集中在机器人Gemini聊天方面）的进程，同时能规避风险。通过将生成式 AI 功能外包给另一家公司，蒂姆·库克或许能减少苹果平台的某些责任。

实际上，OpenELM模型开源之所以受到关注，除了这是苹果公司推出的“高效语言模型”，也因为这套模型减小了参数量，能被部署在智能终端本地，无需做云端联网。

这是在为AI手机做技术准备？

AI手机被国内产业界认为是重大的智能手机技术革命，但AI手机目前在体验端，用户感知较弱，与“传统”智能手机似乎并无区别。

苹果公司在智能手机产业界的地位无需多说，所以苹果的端侧AI到底是什么样的？采用什么技术框架？能带来哪种惊艳的AI体验？这是业界的期待。

值得一提的是，在2024苹果股东会上，库克表示今年苹果在生成式AI领域将有“重大进展”。另外，苹果以往是以封闭式的生态系统“软硬一体”构建其商业帝国，但这次却选择了开源端侧AI技术框架，这是前所未见的变化。

这种变化到底意味着什么？恐怕还是得等到WWDC 24那天揭晓。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

赛道Hyper | 端侧AI模型部署：苹果怎么做？

跟着微软推动AI模型瘦身

前所未见的动作意向不明

AI手机有何不同？更多苹果AI功能细节流出

苹果进击AI Phone

抓紧“拉拢”OpenAI和谷歌，苹果今年要让iPhone 16拥有GPT机器人

苹果加入开源大战，官宣端侧小模型OpenELM！参数2.7亿到30亿一台M2 Mac可跑

报道：苹果发力AI竞赛自研端侧大模型

跟着微软推动AI模型瘦身

前所未见的动作意向不明

AI手机有何不同？更多苹果AI功能细节流出

苹果进击AI Phone

抓紧“拉拢”OpenAI和谷歌，苹果今年要让iPhone 16拥有GPT机器人

苹果加入开源大战，官宣端侧小模型OpenELM！参数2.7亿到30亿一台M2 Mac可跑

报道：苹果发力AI竞赛 自研端侧大模型

报道：苹果发力AI竞赛自研端侧大模型