赛道Hyper | 端侧AI模型部署:苹果怎么做?

封闭的苹果商业帝国,开了一丝门缝。

作者:周源/华尔街见闻

AI已成为缺乏技术创新的智能手机行业走向“新生”的新技术焦点。

最早在端侧实现AI语音助手“Siri”的苹果公司,进入2024年以后,一改在最近两年有意忽视AI的做派,开始频频向AI递送秋波。

最近,苹果公司在其新款 MacBook Air新闻稿中,明确提到了这是一款“用于AI的全球最佳消费级笔记本电脑”,这个提法在最近两年非常罕见。此前,苹果似乎有意回避“AI”的提法,常常用ML(机器学习:Machine Learning)代替AI。

与国内一众同行不一样的地方在于,苹果推动AI技术在端侧的落地,采用“论文先行”的方式。

3月,苹果Siri团队发表了一篇名为《利用大型语言模型进行设备指向性语音检测的多模态方法》的论文,主要讨论在2023年将“Hey Siri”简化成“Siri”后,再简化掉“Siri”,从而将与苹果手机的人机对话做到无缝衔接,自然而然。

这只是苹果推动AI在端侧落地的一个微小动作,毕竟Siri在2011年就推出了。

真正能体现苹果在端侧AI技术布局和成果的是4月24日的那件事:苹果推出OpenELM。这是一个全新的开源大型语言模型(LLM)系列,能完全在单个设备上运行文本生成任务,无需连接云服务器。

也就是说,OpenELM就是眼下国内智能手机商说的AI手机在端侧的大模型部署。最近有消息持续放出,主要涉及今年6月的苹果WWDC(苹果全球开发者大会:Worldwide Developers Conference)推出的iOS 18,会内置哪些端侧AI功能。

进入2024年,苹果开始真正启动端侧AI战略。虽然苹果从未这么描述过,但就现实角度看,苹果实际上也开始“AII in AI”。

跟着微软推动AI模型瘦身

作为智能手机的全新产品定义者、移动互联网产业的开创者,苹果公司,在软件层面的受关注度不如硬件高,但实际上重要性丝毫不亚于硬件技术迭代。

4月24日,苹果在全球最大的AI开源社区——Hugging Face发布OpenELM (Open-source Efficient Language Models)系列模型。这是苹果AI赛道最近一年内最重要的举措。

OpenELM共有8个模型:4个预训练模型和4个指令调整模型,参数量分别为2.7亿(0.27B)、4.5亿(0.45B)、11亿(1.1B)和30亿(3B)。

所谓参数,是指LLM(大语言模型:Large Language Model)中人工神经元之间的连接数。通常,参数越多,则性能越强、功能越多。

从参数规模上不难看出,OpenELM模型实际上就是为端侧AI而生。

什么是预训练?这是一种是LLM生成连贯文本的方法,属于预测性练习;指令调整则是让LLM对用户的特定请求做出相关性更强的输出的方法。

苹果AI团推发表的论文指出,OpenELM模型基准测试结果在配备英特尔i9-13900KF CPU和英伟达RTX 4090 GPU、运行Ubuntu 22.04的工作站上运行;同时,苹果也在配备M2 Max芯片和64GB RAM、运行MacOS 14.4.1的MacBook Pro上做基准测试。

OpenELM模型的核心优势是采用的层级缩放策略,这种策略通过在Transformer模型的每一层中有效分配参数,从而显著提升了模型的准确率。

根据最近的测试结果统计结果显示,OpenELM在10次ARC-C基准测试中的得分率为84.9%,在5次MMLU测试中的得分率为68.8%,在5次HellaSwag测试中的得分率为76.7%。

这不是苹果在AI软件上的首次动作。

2023年10月,苹果低调发布了具有多模态功能的开源语言模型Ferret。与去年相比,4月24日的模型,技术框架相对更完整,还涵盖数据整理、模型构建与训练/调整与优化。

不知是巧合还是有别的原因,4月23日,微软也发布了可完全在智能手机(iPhone 15 Pro)上运行的Phi-3 Mini模型:参数规模3.8B(38亿),性能可与Mixtral 8x7B和GPT-3.5等模型相媲美。

更重要的是,无论是Phi-3 Mini模型,还是OpenELM模型,都能完全在智能终端的端侧运行,无需联网。

这就说明,苹果正式开始在端侧推动部署AI LLM,其参数最小模型只有0.27B,这与国内智能终端的端侧LLM相比,就参数量来说,只有不到10%。

国内为了能做到在端侧本地化运行LLM,通常依靠提高LLM压缩率,以实现在有限的内存空间(12GB-24GB)“塞入”LLM,而苹果直接减小了LLM的参数规模,但训练和推理精度并没有随之也跟着降低。

虽然在3月,苹果推出了参数规模高达30B的MM1大模型(多模态大型语言模型)——Forret模型。但从苹果开源的LLM大模型框架看,苹果在大力推动LLM的“瘦身计划”。

前所未见的动作意向不明

很明显,从2023年10月以来,苹果开始推动AI技术在终端的落地,目标是“让人工智能在苹果设备上本地运行”。今年1月苹果发表的论文《LLM in a flash:Efficient Large Language Model Inference with Limited Memory》更明显地显示苹果在向着这个目标迈进的努力。

通过OpenELM模型,苹果展示了在AI领域的技术和目标框架:OpenELM专为终端设备设计,这能优化苹果现在的多终端体验——目前展示在苹果笔电上的运行能力;其次,在小规模的LLM上兼顾性能和效率;第三,开源。

尽管如此,苹果这些自研的LLM或者一些技术框架,能否会内置在今年6月举行的WWDC 24上即将推出的iOS 18中,目前无法明确。因为,苹果还在与谷歌和OpenAI接触,不排除会在iOS内置这些竞对的AI技术。

外界现在很难获知苹果和谷歌以及OpenAI的沟通内容,也不知道苹果会和哪个公司达成AI技术的商业合作。除了这两家大名鼎鼎的技术公司,苹果还在和一家名为“Anthropic”的AI技术初创公司接触。

苹果推动与合作伙伴的技术合作,有助于加速苹果进入聊天机器人领域(与谷歌的接触主要集中在机器人Gemini聊天方面)的进程,同时能规避风险。通过将生成式 AI 功能外包给另一家公司,蒂姆·库克或许能减少苹果平台的某些责任。

实际上,OpenELM模型开源之所以受到关注,除了这是苹果公司推出的“高效语言模型”,也因为这套模型减小了参数量,能被部署在智能终端本地,无需做云端联网。

这是在为AI手机做技术准备?

AI手机被国内产业界认为是重大的智能手机技术革命,但AI手机目前在体验端,用户感知较弱,与“传统”智能手机似乎并无区别。

苹果公司在智能手机产业界的地位无需多说,所以苹果的端侧AI到底是什么样的?采用什么技术框架?能带来哪种惊艳的AI体验?这是业界的期待。

值得一提的是,在2024苹果股东会上,库克表示今年苹果在生成式AI领域将有“重大进展”。另外,苹果以往是以封闭式的生态系统“软硬一体”构建其商业帝国,但这次却选择了开源端侧AI技术框架,这是前所未见的变化。

这种变化到底意味着什么?恐怕还是得等到WWDC 24那天揭晓。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章