AI大模型需要什么样的硬件?

华泰证券研究所
沿着:1)大模型如何赋能终端,2)终端如何解决大模型普及难点两条思路,寻找硬件的落地机会。

关注AI大模型 x 硬件的两条思路

从22年11月OpenAI推出ChatGPT至今,我们看到Chatbot应用的能力不断增强,从最初的文字问答,迅速向具有自主记忆、推理、规划和执行的全自动能力的AI Agent发展。我们认为端侧智能是大模型发展的重要分支。建议投资人沿着:1)大模型如何赋能终端,2)终端如何解决大模型普及难点两条思路,寻找硬件的落地机会。我们看好1)Apple Intelligence推动苹果用户换机,2)交互能力提升推动轻量级AR开始普及,3)隐私保护需求推动办公用 PC AI化等三大机会。

具备记忆、推理、规划、执行能力的AI Agent可能是大模型的最终形态

大模型的应用能力最初功能仅限于文字问答,此后逐渐引入图像理解、文生图功能,并通过GPT Store拓展功能,形成了AI Agent雏形,近期GPT-4o则实现了具备情感的互动。用户数方面,根据Similarweb,24年5月ChatGPT的PC+移动端独立访客数达到3亿,在全球所有网站中排名第22。我们认为大模型的演进方向是智能化和自动化程度逐渐提升,最终形态是AI Agent,具有自主记忆、推理、规划和执行的全自动能力。

观点#1:Apple Intelligence推动苹果用户换机,利好产业链业绩增长

6/11, 苹果WWDC 2024大会推出由苹果自研的端侧大模型、云端大模型、以及OpenAI的ChatGPT组成的全新智能系统Apple Intelligence。从功能上来讲,和OpenAI,Google的现有功能差异不大,但由于此类功能只在iPhone 15 pro/max及以后系列搭载,有望推动苹果用户换机。根据IDC数字,苹果2023年销量2.34亿台,华泰预测苹果2024年销量下降8.2%到2.15亿台。根据BankMyCell数字,2024年苹果手机活跃用户14.6亿人,对应目前换机周期6.23年,如果Apple Intelligence能够缩短换机周期3个月,可以带动约1000万台新机销售。

观点#2:交互能力提升推动轻量AR普及

AR/VR一直被认为有望替代手机成为下一代移动终端。但由于缺少触摸屏,人机交互困难一直是困扰AR/VR发展的一大难点。从最近谷歌推出的Project Astra以及Meta的雷朋眼镜中我们看到,大模型所具备的图像理解、语音交互,以及根据语音交互结果进行的执行能力有望大幅度提高AR眼镜的交互能力。目前具身智能的发展仍然处于非常早期阶段,但是大模型所具备的以上能力,也有望大幅度提高机器人对环境的理解能力,以及根据理解结果控制关节等的执行能力。

观点#3:隐私保护需求推动办公用 PC AI化

23年3月,微软推出面向Office的Microsoft 365 Copilot以来,以办公助手为切入点,重塑包括Word、Excel、 Powerpoint等通用办公软件,以及Dynamics套件等专业软件在内的生产力工具矩阵,向数据协同、功能联动的方向发展。如何保护自身私域数据的安全是企业导入微软Copilot的主要痛点之一。24年5月,微软推出Copilot+PC,通过在终端侧部署轻量级的大模型,在保护隐私的前提下,能够实现会议纪要、文档总结、PPT智能创作、文生图等企业的基本办公需求,是大模型时代生产力工具的主要支点。我们认为2025年AI PC渗透率有望大幅提升。

正文

摘要:大模型能力提升不断解锁新的应用场景

过去一年,大模型能力的发展速度超出我们预期。以衡量LLM的常用的多语言理解均值评测标准(MMLU)为例,2021年底全球最先进大模型的MMLU 5-shot得分刚达到60%,2022年底超过70%,而2023年底已提升至超过85%。在语言能力之外,AI大模型的多模态能力也快速提升。2023年初,主流闭源大模型通常为纯文本的LLM。2023年至今,闭源模型的多模态能力具有大幅度提升,目前主流闭源大模型通常具备图像理解、图像生成能力。部分最前沿的闭源大模型,例如GPT-4o、谷歌Gemini,支持的模态更加多元,能够理解文本、图像、音频、视频(帧),并生成文本、图像、音频。2022年9月,红杉资本预计还需要近十年的时间,大模型才能实现实习生级别的代码生成、好莱坞质量的视频和区别于机械声的人类质量语音,但是实际进展远超当时预期,Sora已经能够生成60s的高质量视频,GPT-4o和谷歌Gemini都已经能够实现具备感情的实时人机语音交互。

我们看到,随着大模型能力的不断增强,AI的作用不断深化,生成式AI新的应用不断被解锁。通过对AI在搜索、电商零售、办公、金融法律、影视游戏,医药、教育、汽车等行业应用前景的分析,我们认为,AI应用的落地节奏或与行业数字化程度成正比,我们看到AI大模型在互联网(搜索+广告营销)、办公、金融等领域率先迎来“iPhone时刻”。其中最值得关注的应用包括:1)文本生成在电商、金融、医疗等行业替代传统客服;2)文本和图像生成在办公、广告营销、金融、影视游戏等领域成为下一代生产力工具;3)蛋白质生成能力拓宽人类探讨世界的范围,特别是在新药开发上的应用前景。

硬件是大模型的重要载体,什么是AI大模型时代的最佳硬件形态是投资人最关心的话题之一。我们认为随着大模型能力的不断提升,新的硬件形态会被不断解锁。建议投资人沿着:1)大模型如何赋能终端,2)终端如何解决大模型普及难点两条思路,寻找硬件的落地机会。

大模型如何赋能终端:交互能力提升(轻量级AR),代码执行(具身智能)。AR/VR一直被认为有望替代手机成为下一代移动终端。但由于缺少触摸屏,人机交互困难一直是困扰AR/VR发展的一大难点。从最近OpenAI推出的GPT-4o、谷歌推出的Project Astra以及Meta的雷朋眼镜中我们看到,大模型所具备的图像理解、语音交互,以及根据语音交互结果进行的执行能力有望大幅度提高AR/VR产品的交互能力。另外,虽然目前具身智能的发展仍然处于非常早期阶段,但是大模型所具备的以上能力,也有望提高机器人对环境的理解能力,以及根据理解结果控制关节等的执行能力。

终端如何解决大模型痛点:隐私保护(AI PC)。23年3月,微软推出面向Office的Microsoft 365 Copilot以来,以办公助手为切入点,重塑包括Word、Excel、Powerpoint等通用办公软件,以及Dynamics套件等专业软件在内的生产力工具矩阵,向数据协同、功能联动的方向发展。如何保护自身私域数据的安全是企业导入微软Copilot的主要痛点之一。24年5月,微软推出Copilot+PC,通过在终端侧部署轻量级的大模型,在保护隐私的前提下,能够实现会议纪要、文档总结、PPT智能创作、文生图等企业的基本办公需求,是大模型时代生产力工具的主要支点。我们认为2025年AI PC渗透率有望大幅提升。

终端如何解决大模型痛点:高频使用(AI手机)。手机是人们日常生活最高的交互终端,具有普及率高、使用频率高,考虑终端算力、存力以及客户应用需求等因素,手机已经成为AI大模型在C端落地的重要设备。去年底至今,随着三星Galaxy S24、Google Pixel 8等重要产品上市,以及苹果WWDC推出Apple Intelligence,手机AI的功能逐渐清晰。目前语音助手、修图、写作助手等功能成为主流。苹果通过Siri,将AI当作手机不同App之间联系的工具,而不是像此前三星和谷歌的AI应用更侧重于让AI去完成单一特定任务。未来AI软件由谁付费或发展成手机品牌商、芯片厂商、软件厂商、消费者的四方博弈,但随着token成本的下降和苹果较大的优质用户基数,模型API成本或持续下降,并推动应用加速普及,AI手机渗透率有望持续提升,形成正向循环。

大模型应用#1:从Chatbot到AI Agent,个人助理重塑手机应用生态

AI大模型的能力进步推动Chatbot在C端广泛“出圈”。Chatbot(聊天机器人)通过自动化方式来处理和回复用户输入,可以模拟人类对话,通过文字或语音与用户进行实时交互。2010年代,随着NLP等技术的发展,Chatbot已经在客服、营销、企业信息服务等领域得到了广泛应用。然而,由于语言理解及生成能力有限,因此Chatbot的落地范围局限在B端特定服务型场景,并未诞生具有广泛影响力的C端产品。2022年12月,ChatGPT在文本生成、代码生成与修改、多轮对话等领域展现了大幅超越过去AI问答系统的能力,标志着Chatbot行业进入AI大模型时代。此后,Chatbot作为C端用户体验大模型门槛最低的产品,成为大模型厂商的“标配”,谷歌Bard、百度文心一言、阿里通义千问等产品在2023年纷纷推出。

在文字对话功能之外,Chatbot功能随着AI大模型能力的发展而迅速丰富。过去一年,我们看到,各大模型厂商的Chatbot产品普遍新增了图像理解、文生图功能,并且新增应用插件商店以拓展Chatbot功能。以ChatGPT为例,2023年9月,OpenAI将DALL-E 3整合到ChatGPT中,从而支持文生图功能。2024年1月,OpenAI正式上线应用商店GPT Store,当时用户已经创建超过300万个GPTs,主要的GPTs涵盖图像生成、写作、科研、编程/软件开发、教育、生产力工具和生活七大类别。GPT Store取代了此前的插件商店(2024年3月关闭),用户不仅可以在平台上分享自己创建的GPTs,还可以从其他人那里获取各种GPTs,形成丰富的GPTs生态系统。GPT Store定制版本可以针对特定任务或行业进行优化,允许用户与外部数据(如数据库和电子邮件)进行简洁的交互。2024年5月,随着OpenAI更新GPT-4o模型,ChatGPT能够识别用户语音的感情,并输出语音,实现如同与真人对话一般的沉浸式体验。

Chatbot逐渐向AI Agent演进。AI Agent是指大模型赋能的,具备规划、记忆、工具、行动能力的智能体。我们认为Chatbot的演进方向是智能化和自动化程度逐渐提升,需要人类参与的程度逐渐下降,逐渐过渡到人与AI协作的Copilot,最终形态是AI Agent,Agent只需要人类的起始指令和结果的反馈,具有自主记忆、推理、规划和执行的全自动能力,执行任务的过程中并不需要人的介入。

从Chatbot向AI Agent的演进过程中,手机应用生态或将发生改变。我们认为手机或是向AI Agent演进率先落地的硬件载体,发挥AI个人助理的作用。AI个人助理可以记住生活和工作中的各种信息,如下周的晚餐计划或工作会议的内容,并自动整理和索引这些信息;可以帮助用户完成例如安排约会、预订旅行、点餐、播放音乐、回答问题等各种任务。落地过程中,手机应用生态或将从目前以应用商店+APP的模式转变为Agent Store+Agent的模式,手机厂商可能都会发布自己的Agent Store。

AI手机:AI大模型驱动软硬件升级

手机是人们日常生活较高的交互终端,具有普及率高、使用频率高的特点,考虑终端算力、存力以及客户应用需求等因素,手机已经成为AI大模型在C端落地的重要设备。去年底至今,随着三星Galaxy S24、Google Pixel 8等重要产品上市,以及苹果WWDC推出Apple Intelligence,手机AI的功能逐渐清晰。目前语音助手、修图、写作助手等功能成为主流

以三星今年1月发布的Galaxy S24为例,该机型搭载自研大模型Samsung Gauss,具备实时翻译/圈选搜图/生成式编辑/笔记助手等功能。软件方面,基于OneUI 6.1系统,强化虚拟助手Bixby,为用户提供丰富多样的应用服务。据Techweb,Google有望在10月推出Pixel9系列,预计将搭载基于最新Gemini模型的AI助手,执行复杂的多模态任务。芯片方面,下半年将发布的骁龙8Gen4较上一代产品有望进一步支持AI应用。

2024年6月举行的苹果WWDC 2024大会推出全新个人化智能系统Apple Intelligence,由苹果端侧大模型、云端大模型、ChatGPT共同组成,算力足够下依赖终端,复杂场景则使用私密云计算或ChatGPT,能够1)增强Siri理解能力,配备多轮对话、总结信息、屏幕内容感知、应用智能交互等能力,2)提供邮件智能回复、通知整理,备忘录和通话录音/撰写/摘要等功能,3)支持图像生成/智能修图等功能,4)ChatGPT4o将融入siri和writing tools,作为云端备选模型。我们看到Apple Intelligence核心能力包括文生文、文生图、跨App交互与个人情境理解,并需要以OpenAI ChatGPT4o作为云端备选模型,配备上了目前已有的大部分AI功能。苹果通过Siri,把AI当作手机不同App之间联系的工具,而不是像此前三星和谷歌的AI应用更侧重于让AI去完成单一特定任务。苹果让Siri在未来成为应用分发入口和流量入口,以超过13亿台用户基数生态去提供好的产品解决方案。

IDC认为,新一代AI智能手机需拥有至少30 TOPS性能的NPU,能够在手机上运行LLMs,符合标准的SoC包括Apple A17 Pro、MediaTek Dimensity 9300、Qualcomm Snapdragon 8 Gen 3等。此类手机在2023年下半年开始进入市场。

硬件方面,我们看到:1)SoC:AI引擎升级、NPU算力提升,SoC进一步升级确定性强;2)存储:手机RAM升级至24GB LPDDR5X,相较当前主流的8GB LPDDR4X,成本提升300%;3)电源:电池/电源管理芯片升级,但弹性相对较小;4)光学:AI推动屏下摄像头应用取得突破。软件方面,新一代AI智能手机在系统架构和应用方面更加匹配个性化、场景化服务需求。

软件方面,与功能机和前代智能机相比,新一代AI智能手机更加注重场景化服务能力。前代智能机在功能机的基础上增加了手机OS和内嵌语音助手,并针对用户不同需求推出独立APP进行响应。新一代AI手机在大模型和原生化服务组件库的基础上,提供用户可定义的智能体开发平台和专属智能体,实现AI文本/AI图像/Al语音/Al视频等功能,满足用户健康管理/生活服务/角色扮演/高效办公/游戏助手等场景化需求。

据IDC,全球AI手机2024年出货量有望同比增长233%至1.7亿台。中国AI手机所占份额自2024年以后会迅速增长,预计2024年中国市场AI手机出货量为0.4亿台,2027年将达到1.5亿台,且AI手机渗透率有望在2027年超过50%。我们认为,AI手机以其智能化、个性化的特点,有望吸引更多用户进行换机升级,从而引领新一轮的换机潮。

根据2024年4月7日发布的《4月手机观察:华为份额继续提升,关注P70等新机发布》,根据IDC数字,苹果2023年销量2.34亿台,华泰预测苹果2024年销量下降8.2%到2.15亿台。根据BankMyCell数字,2024年苹果手机活跃用户14.6亿人,对应目前换机周期6.23年,如果Apple Intelligence能够缩短换机周期3个月,可以带动约1000万台新机销售。

AR/VR:AI大模型交互能力,看好智能眼镜等轻量级AR发展机遇

AI大模型有望提升AR/VR交互能力,加速其进入主流市场。据IDC,2023年,AR/VR产品全球出货量675万台,同比-23%。随着苹果VisionPro发布,AR/VR/MR出货量在2024年有望温和复苏。AI大模型的出现驱动语音助手、物体识别和生活助理等功能赋能AR/VR设备,提升了用户与虚拟环境的互动质量,据VR陀螺(2024/6/5),Meta雷朋智能眼镜出货量已超百万副,AI大模型的出现有望加速AR/VR技术进入主流市场的步伐。

语音助手、物体识别、生活助理等AI功能已在AR/VR产品中广泛出现。语音助手功能让AR眼镜能够通过上下文语义理解与用户进行更自然的交流,如李未可Meta Lens S3通过大型语言模型AI系统提供闲聊和建议。物体识别技术使AR眼镜能够识别现实世界中的物体,例如Meta雷朋智能眼镜引入建筑识别和菜单翻译功能。此外,生活助理功能与用户的社交生活深度绑定,提供聊天回复、邮件整理、购物建议等个性化服务。这些AI功能的融合不仅提升了用户体验,还预示着AR/VR产品将更加智能化,为用户提供更便捷和个性化的服务。随着技术的不断进步,预计未来AR/VR设备将实现更复杂的多模态AI应用,进一步增强其作为下一代计算平台的潜力。

大模型应用#2:生产力工具的AI化有望推动新一轮PC换机周期

生产力工具、沟通工具及协作工具经历了PC时代、移动互联网时代的演进,正在进入AI时代。微软、谷歌与金山办公等公司以AI大模型对原有的生产力工具应用进行升级,通常提供文档理解、文字生成、图片生成、数据分析与处理等等功能,提升用户生产力。

办公:微软、谷歌引领产品矩阵全面AI化

微软是全球生产力工具的领导企业,围绕企业业务与管理流程,已经形成了布局完整的产品矩阵,目前正主导生产力工具的AI化。微软的产品矩阵覆盖企业办公、客户关系管理、资源管理、员工管理、低代码开发等业务环节,微软已经围绕这些业务环节,推出相应的Copilot产品,对原有产品进行AI大模型赋能。从Copilot时点来看,微软首先在主力产品Office套件上线Copilot,然后逐步在企业业务与管理流程的Dynamics套件、开发相关的Power Platform条件、员工管理的Viva套件上线Copilot。我们认为Copilot正以“通用助手”为切入点,重塑微软生产力工具矩阵,向数据协同、功能联动的方向发展。目前办公场景Office、企业业务流程场景Dynamics下的Copilot已明确单品收费标准。微软的Copilot产品分为和家庭两大场景。

工作场景方面:1)面向企业办公场景推出Copilot for Microsoft 365,根据微软FY3Q24(对应日历季度1Q24)业绩会,近60%的财富100强企业正在使用。2)面向企业流程中的财务、销售和客服场景,分别推出Copilot for Finance/Sales/Service;3)面向云运营和管理场景,推出Copilot for Azure;4)面向IT安全场景,推出Copilot for Security;5)此外,微软推出Copilot Studio支持用户自定义Copilot,根据1Q24业绩会,已有3万名用户使用。

家庭应用方面:1)面向C端用户办公场景推出Copilot Pro;2)面向Win 11和部分Win 10推出Copilot for Windows,支持通过任务栏上或键盘上的Copilot按钮进行快速访问;3)在Bing搜索、Edge浏览器推出Copilot。

谷歌将Gemini大模型内置在其2B云端办公套件Workspace中。谷歌将Gemini for Workspace的功能定义为:1)写作,例如生成项目计划、提案、简报等、以及优化文本;2)整理,例如通过简单描述创建项目跟踪表格;3)创建图像;4)联系,例如在视频通话中创建自定义背景,提高声音和视频质量;5)无代码创建应用。

金山办公WPS已陆续在主要产品上线WPS AI服务。WPS AI已经覆盖文字、演示、PDF、表格、智能文档、智能表格、智能表单等产品,涵盖了金山办公的主要产品。此外,金山办公发布了WPS AI企业版,推出AI Hub(智能基座)、AI Docs(智能文档库)、Copilot Pro(企业智慧助理)三大功能。

编程:AI协助编程开发,提高开发效率与质量

AI编程工具在功能上具有高度相似性,主要包括自动代码生成、代码分析与错误检测、实时编程建议。AI工具的应用极大地提高了开发效率,自动完成编写样板代码、设置环境和调试等重复性任务,使得开发者能腾出时间进行创造性开发;实时语法与错误检查功能有助于提升代码质量,减少代码调试时间,加快开发过程。根据微软官网调查数据,使用AI工具辅助编程后,74%的开发人员反映能够专注于更令人满意的工作,88%的使用者感觉工作效率更高,96%的开发人员在处理重复性任务时速度更快。

GitHub Copilot是AI编程领域最具代表性的AI工具,由OpenAI与Microsoft合作开发。Copilot具备强大的网络搜索和推理决策能力,能回答开发过程中的问题。比如通过自然语言描述需求,Copilot可以自动生成代码,并提供部署建议。据微软FY3Q24(对应日历季度1Q24)业绩会,GitHub Copilot付费用户数已达到180万,环比增速35%以上,收入同比增长超过45%。2024年5月微软Build大会进一步升级GitHub Copilot,包括1)更新Extensions,提升开发者的效率。开发者在编写代码之外花费了75%的时间用于追踪工作流和撰写文档。Extensions将所有流程整合在一起,可从Neovim、JetBrains IDE、Visual Studio 和 Visual Studio Code等多种编辑器实时工作,减少上下文切换,开发者只需专注于核心代码。2)推出Copilot Workspace,提高团队使用GitHub管理项目的效率,提供清晰的代码变动可视化界面,增强项目掌控感。3)推出Copilot connectors,便于开发者用第三方数据和应用定制Copilot,提升开发效率。例如,开发者可以用西班牙语语音要求Copilot用Java编写代码,或询问Azure资源的可用性。

PC:AI PC 24年下半年渗透率有望持续提升

AI PC = 边缘算力+内置大模型。目前AI PC定义众多,芯片厂商、PC品牌厂商、第三方机构均各自有自己的定义。我们认为广义来说,处理器具有NPU提供的边缘算力能力,以及具有内置大模型,就可以称之为一款AI PC。以联想4/18推出的AI PC系列产品看,目前AI PC主流功能可以分为8类,PPT智能创作、文生图、文档总结、智能问答、AI识图、会议纪要、智会分身、设备调优,我们认为这是公司在AI PC的初期尝试,预计24年底全新一代AI PC随着处理器升级而推出后,全球AI PC渗透率有望更快提升。

IDC预计全球PC出货总量稳定增长,AI PC渗透率持续提升,2027年或达60%。根据IDC数据,2023年全球PC出货量约2.5亿台,AI-capable PC出货量0.25亿台,市占率约为10%;2024年全球PC出货量2.75亿台,AI-capable PC市占率约19%;预计到2027年,全球PC出货量为2.93亿台,届时AI-capable PC市占率有望达到60%。

AI PC下NPU与独立GPU方案或将长期共存。AI应用落地将对PC算力提出更高要求,高通、英特尔、AMD等芯片厂商纷纷展开布局,陆续推出针对AI PC场景优化的芯片产品。在PC侧,使用独立GPU运行AI运载,具备高性能、高吞吐量等优势,但功耗高;NPU方案更具高能效、低功耗等特点,但对高性能要求AI负载支持能力有限。考虑AI任务需求以及用户偏好不同,我们认为AI PC市场使用1)CPU+NPU+GPU处理器(英特尔 Meteor Lake/AMD 8040等);2)CPU+独立GPU;3)CPU+NPU+GPU处理器+独立GPU等组合作为处理AI负载主力的算力架构方案或将长期共存。2022年,据IDC数据,ARM架构CPU在PC市场的市占率约11%,主要布局厂商为苹果。2023年10月,高通推出的基于ARM架构X Elite芯片具备突出的AI性能表现,符合AI PC发展趋势,有望带来ARM CPU在PC市场取得进一步突破。2024年6月举行的COMPUTEX 2024上,ARM CEO Rene Haas表示称,Arm预计将在五年内拿下Windows PC市场50%以上的份额。

AI PC推动存储规格升级,DRAM最低16GB、LPDDR占比或逐渐提高。1)阿里通义千问7B模型的原始大小是14.4GB,在联想的Lenovo AI now中运行的模型则压缩到了4GB。由此,AI大模型+电脑本身的缓存,大概只要5-6G内存能运行起来,而OS本身需占用5-6GB,故未来运存最低也需要16GB才能保证PC稳定运行。2)根据Trendforce,Qualcomm Snapdragon X Elite、AMD Strix Point及英特尔 Lunar Lake,三款CPU的均采用LPDDR5x,而非现在主流的DDR SO-DIMM模组,主要考量在于传输速度的提升;DDR5目前速度为4800-5600Mbps,而LPDDR5x则落于7500-8533Mbps,对于需要接受更多语言指令,及缩短反应速度的AI PC将有所帮助。今年LPDDR占PC DRAM需求约30~35%,未来将受到AI PC的CPU厂商的规格支援,从而拉高LPDDR导入比重再提升。

硬件级的安全芯片确保隐私安全。根据联想和IDC联合发布的《AI PC产业(中国)白皮书》,AI PC需要设备级的个人数据和隐私安全保护,除了个性化本地知识库提供本地化的个人数据安全域以及本地闭环完成隐私问题的推理之外,还可能引入硬件级的安全芯片在硬件层面确保只有经过授权的程序和操作才能读取、处理隐私数据。此外联想等厂商也同样在自研AI芯片(如联想拯救者Y7000P、Y9000P、Y9000X、Y9000K四款新品笔记本搭载的搭联想自研AI芯片——LA系列芯片),实现智能的整机功耗分配。

大模型应用#3:AI大模型推动具身智能技术加速迭代

具身智能(Embodied AI)属于人工智能领域的分支,典型应用为自动驾驶和机器人。具身智能是泛指具有物理身体可以与外界环境进行自主交互的AI智能载体。类似于人的自主性,即通过五官(感知)、大脑(规划决策)、小脑(运动控制)完成一系列的行为,具身智能的行动一般也基于:(1)感知并理解与物理世界交互获得的信息、(2)实现自主推理决策、(3)采取相应行动进行交互。目前典型的具有较大落地场景的具身智能应用包括自动驾驶和机器人,最具代表性产品如特斯拉的FSD自动驾驶系统和Optimus人形机器人等。

过去一年,AI大模型助力具身智能的感知、决策等技术进展。如上所述,具身智能算法一般可以按环节拆解为感知模型(感知识别环境信息并预测环境变化)、规划/决策模型(根据感知结果做出任务决策)、控制/执行模型(将决策转换指令转换为行动方式)。我们以行业领军企业特斯拉的发展为例子,观测过去一年AI大模型的运用对具身智能技术带来的促进:

自动驾驶:受益于AI大模型发展,感知和决策层快速迭代。(1)感知层:过去传统的自动驾驶感知技术主要系“2D 直视图+CNN”,核心是识别周遭的障碍物是什么及其大小和速度,效率和精度低。特斯拉2022年10月公布的Occupancy Network大模型(基于BEV+Transformer的延申),通过计算物体的空间体积占用来构建具有空间、时序的4D“实时地图”,获得更加连续、稳定的感知结果。有利于解决障碍物无法识别从而消失问题;同时地图以自车为中心坐标系构建,更好的统一了感知和预测的框架。(2)决策层:过去的决策算法基于一条条事先设定的rule-based的规则,在不同场景下触发行为准则,因此难以解决长尾瓶颈问题。特斯拉决策算法采用交互搜索模型,机器可以自主预测周围环境个体的交互轨迹,并对每一种交互带来的风险进行评估,最终分步决定采取何种策略,让车辆实现更快、更灵活、更拟人的决策行为。(3)控制层:由于汽车的自由度较低,自动驾驶的控制算法主要依据决策模型输出指令,控制线控底盘等部件进行转向、刹车,从而操控汽车驾驶。目前特斯拉FSD V12全面转向端到端架构(一个大模型实现从感知到控制),开始推进商业落地,代码仅2000多行,全面摒弃V11版本超过30万行由工程师编写C++代码。

人形机器人:技术难度远高于自动驾驶,运动控制算法或是关键之一。(1)感知层:人形机器人的外部感知(获取外部环境信息)主要包括视/听/触觉,内部感知(获取自身状态信息)主要是对身体的状态和姿态控制。特斯拉FSD的视觉感知Occupancy Network,可以复用在机器人上,有利于加速机器人多模态感知的发展。(2)决策层:LLM/ VLM/ VLA等通用大模型的不断发展和扩大运用,有望帮助提升机器人的语义和视觉理解能力、问题和任务拆解和推理能力。(3)控制层:机器人,特别是人形机器人的自由度较高,让灵巧手/机械臂完成一系列复杂的任务以及控制直立行走/跑跳等动作需要具备较强的逻辑推理能力,然而大部分运控算法仍处于发展初期,指令生成速度慢且简单,这也是机器人发展亟待突破的关键之一。我们看到特斯拉的人形机器人在2022年10月时只能实现缓慢行走与挥手,2023年12月已经可以流畅的行走与抓取鸡蛋等物品,显示出运控能力的迭代加快。

英伟达构建三大计算机平台推动具身智能发展。英伟达创始人兼首席执行官黄仁勋在2024年GTC大会上表示,“机器人时代已经加快到来,所有移动的东西有朝一日都会是自主的,我们正在努力推进英伟达机器人相关产品,加速实现生成式实体人工智能”。英伟达同时升级了Issac机器人平台,从训练、仿真、推理三方面赋能机器人行业发展。在自动驾驶方面,英伟达同样也推出了Drive平台。

1)训练平台:用于训练机器人的基础模型。包含英伟达推出的“Project GR00T”人形机器人通用模型、以及其他主流的VLM/LLM等生成式AI通用基础模型,可以在此基础上进行感知、决策、规控等方面训练和强化学习。

2)仿真平台:在Omniverse基础上打造了机器人仿真平台Isaac SIM。在数字孪生环境中,实现和真实环境一样的开发和测试效果,如获取真实环境中难以得到的数据,可以加快开发流程和减少开发成本。

3)端侧平台。机器人本体的部分做了低功耗高性能的嵌入式计算平台,以及感知、决策规划等的AI算法增强的应用部署。如英伟达推出的Jetson Thor SoC片上系统开发硬件,内置了下一代Blackwell GPU(此前英伟达也推出过针对汽车的DRIVE Thor套件),带宽达到100GB/s,AI计算性能达到800TFLOPs。

优必选持续迭代推出Walker X,加速国内人形机器人商业化落地。优必选是国内最早开始研究人形机器人的企业之一。1)2016年开始研发人形机器人,推出能够全向行走的Walker原型机;2)2017-2018年,推出第一代大型双足仿人服务机器人Walker1,实现上下楼梯、跟球踢球、感知避障、拟人舞蹈、人机交互等功能;3)2019-2021年,推出第二代Walker,并登上2019年春晚进行表演;4)2021年,推出Walker X,该机器人身高1.30m,体重63kg,拥有41个自由度,行走速度提升至3km/h,拥有复杂地形自适应、动态足腿控制手眼协调操作、柔顺物理交互、U-SLAM视觉导航、智能家居控制、多模态情感交互及仿人共情表达环境和人体感知等特性。5)2022以来,Walker X重点发展导览/前台/接待/家庭陪伴等场景,持续推进商业化进程。

自动驾驶和人形机器人是具身智能最具代表性、也最具热度和应用前景的应用。展望未来,高阶自动驾驶有望逐渐开始规模落地,但人形机器人受制于成本和算法成熟度落地尚需等待。自动驾驶:特斯拉于2024年3月已推出FSD V12.3版本,正式更名为FSD Supervised,采用业内首个端到端大模型,并在北美大范围推送免费试用服务。国内随着大模型技术进步、传感器成本的下降,2024年小鹏、华为、理想等在全国多城市开始推送城市NOA高阶智驾,小米、比亚迪、蔚来等也积极布局高阶智能驾驶,行业迎来快速发展。机器人方面,垂直类场景机器人如无人运送机、扫地机器人、工厂机械臂等在加速渗透,但通用型人形机器人由于其多模态感知、高精准运控、以及对泛化和涌现能力等要求高,受限于软件难度和硬件高成本压力,或尚难以在短期内实现快速降本及大规模应用。特斯拉研发的Optimus人形机器人作为行业内关注度极高的机器人产品,我们预计将首先量产应用于工厂和仓库,从事较为清晰可控的拣选搬运工作,未来才会逐渐迭代扩大应用场景。

大模型应用#4:大模型是推动云计算发展的“锚”

我们认为AI大模型是云计算业务的“锚”,云厂商以大模型为重要底座,推动云计算业务向MaaS转型。MaaS是大模型厂商重要的商业模式,提供包括算力、模型、数据工具、开发工具等多种服务。目前已有多家科技巨头将大模型能力部署在云端,或以私有化部署方式提供给企业用户,以模型API调用费、模型托管服务费、按项目收费的定制化解决方案等形式获得收入。海外,微软推出了Azure OpenAI,谷歌推出了Vertex AI,英伟达推出了AI Foundations;国内,阿里、百度、字节跳动、腾讯等公司均推出了基于自有云服务的MaaS模式,商汤等公司也推出了基于自有AIDC和大模型能力的MaaS服务。其中,大模型的来源包括厂商自身训练的闭源模型和开源模型,以及第三方开源模型。以微软Azure为例,用户可选择OpenAI的闭源模型,微软自己的开源模型Phi系列,以及Llama等第三方开源模型。

AI开始拉动云计算收入增长。以微软为例,从2Q23到1Q24的四个季度,AI分别贡献Azure及其他云服务收入增速的1%/3%/6%/7%。谷歌在4Q23、1Q24业绩会上表示,AI对谷歌云的贡献不断提升,对垂直整合的AI产品组合的需求强劲,这为谷歌云在每个产品领域创造新的机会。亚马逊在1Q24业绩会上表示,基础设施建设与AWS AI功能正在重新加速AWS的增长率。生成式AI和模型训练需求驱动,AI收入占百度AI智能云收入在4Q23/1Q24 分别达到4.8%/6.9%,其中大部分收入来自模型训练,但来自模型推理的收入快速增长。

大模型降价吸引客户上云。2024年5月,字节、阿里云、百度、科大讯飞和腾讯相继宣布降价策略,调低面向B端市场的大模型API调用费用。我们认为大模型API降价得益于算力芯片性能的提升与推理部署的优化,其目的在于吸引客户使用公有云,购买云厂商的计算、存储、网络和安全等基础产品。

大模型应用#5:大模型赋能搜索和广告等互联网传统业务

搜索、广告是互联网厂商的代表性传统业务,AI大模型赋能业务效果提升。我们看到AI从算法优化广告推送机制、广告内容生成2方面助力互联网公司广告业务。微软推出Copilot in Bing,Google发布生成式搜索体验(SearchGenerative Experience,SGE),提供更精准、更个性、更智能的搜索结果。其中,微软Bing借力GPT模型能力,市场份额有所提升。

广告:AI算法优化推送机制,生成式AI实现自动化广告制作

AI技术通过算法优化推送机制,提高用户流量与广告转化率。根据Meta Ads公司官网数据,推出Reels短视频后,得益于人工智能驱动的发现引擎,推送内容与用户偏好更加贴合,Instagram用户的平均使用时间增加了24%,超过40%的广告主选择投递Reels形式的广告。Google应用 AI技术改进Lens视觉搜索以及图片文本跨模态多重搜索,Lens 21-23年用户增长四倍,月使用数达到120亿次。

机器学习算法匹配广告和最相关受众,提高广告转化率。Meta Ads引入类似受众和细分定位功能,计算最佳受众群体扩大方式来优化转化量和改善广告表现。类似受众功能通过一系列指标,如过去购买过同类商品、访问过广告主的网站等来挑选最有可能转化的潜在用户进行广告推送。根据Meta官网数据,该工具令单次增量转化费用中值降低 37%。Google使用AI驱动的竞价系统,通过排序最大点击次数出价在整个营销漏斗中进行优化,以推动用户对目标网站的访问等购买意向性行为,并统计广告转化数据,生成归因报告,向广告主推荐值得出价的高效指标。

生成式AI实现自动化广告制作,提高广告创意表现与营销效果。

1)Meta Ads推出内置免费AI广告创作工具Advantage+ Creative,实现广告简化生成与标准美化,助力提高广告创意表现与营销效果。Advantage+ Creative细分功能包含文本衍生、背景生成、智能扩图、风格化制作等,广告主只需提供广告创意和业务受众,AI即可创建多个版本的广告,并挑选出最有可能得到目标受众响应的版本。它也可对广告进行细微改进——比如调整亮度、宽高比和文本布局。Advantage+ Creative有效地降低广告主投入的时间与成本,并提升广告表现。根据Meta官网调查数据,采用Advantage+ Creative的广告主所获得的广告支出回报率(ROAS)提高了32%,其中77%的广告主表示每周得以节约数小时的时间。

2)Google利用人工智能,根据查询上下文即时优化搜索广告,并通过机器学习算法增强广告视觉呈现效果。借助生成式AI技术,Performance Max可以大幅简化广告主的广告制作流程,根据广告主提供的产品网址自动填充广告文本与生成广告图片。此外,当目标受众使用搜索引擎时,Google利用自动创建素材技术优化搜索广告(ACA),重组现有广告生成更贴合查询内容的新标题与图文。广告系列Demand Gen亦能通过机器学习算法将最佳视频和图片素材资源集成到视觉效果最强的接触点中,避免遮挡,帮助广告主在最具沉浸感的视觉界面上吸引更多消费者。根据Google 2022年中期报数据,采用Performance Max使得广告主获得转化客户的成本下降,单次操作费用(CPA)中值减少17.3%;在支付同等费用情况下,广告转化次数增长了18%。

搜索:引入大模型后,Bing份额提升

谷歌:从理解式AI到生成式AI,搜索引擎巨头广泛应用人工智能技术。谷歌享有搜索市场大部分份额,早期对人工智能技术的应用主要以理解式AI为主。根据StatCounter统计结果,2015年至今谷歌在PC与移动端综合搜索量的市占率均超过90%。机器学习在谷歌产品中的第一个应用是2001年的拼写纠正系统,帮助忽略人们搜索内容的拼写错误而得到正确结果。随后谷歌于2019年使用BERT进行检索句子整体拼读以优化搜索排名系统,并开发能力优于BERT 1000倍的多模态、多线程统一大语言模型MUM,以理解和组织网页内容。

随着搜索总量的增加和用户需求的多元化,有效率、高质量的多模态交互搜索成为发展趋势。谷歌于2023年开始启动搜索生成式体验(SGE)实验,以生成式AI大模型Gemini为基础,自动生成搜索内容摘要并进行垂类推荐等算法优化。AI Overviews是SGE的升级版,在5月的2024 GoogleI/O开发者大会上作为“25年间最大更新”发布,与谷歌核心网络排名系统集成,旨在保证搜索准确性,仅显示由高质量网页信息支持的结果。AI Overviews继承了SGE的内容摘要生成能力,支持视频搜索,具有一次搜索解决系列问题的多步骤推理功能和集成谷歌文档邮箱的规划功能。该产品推出两周后受到广泛质疑,谷歌实行改进,但据企业SEO平台BrightEdge于同年6月的调查数据,谷歌淡化了这一功能,AI overviews在搜索中的出现频率已于初始的84%降至约15%。

微软Bing引入GPT模型能力开启生成式Web搜索新体验,市场份额提升。2023年2月,微软为旗下搜索引擎Bing配置AI增强型Web搜索体验助手New Bing,根据3月必应博客文章,预览版助手推出4周时间内日活用户即超过1亿,其中约1/3用户是第一次使用微软的搜索引擎。同年11月,微软将New Bing更名为Copilot。Copilot基于GPT-4和DALL-E,通过汇总Web搜索结果形成摘要和链接列表,并提供聊天体验来支持用户,优势包括:1)具备自然语言理解能力与多模态搜索和生成能力;2)以连续提问模式替代多次独立搜索;3)内置于微软浏览器网页边栏,同步化搜索与网页浏览过程;4)开发多平台延展,连接Web搜索和不同终端,如Skype、office365、GroupMe等。Copilot带来的搜索引擎流量增长数据亮眼,微软FY2Q24(4Q23)业绩会上表示,Bing的市场份额超过雅虎搜索,升至3.4%,由Copilot支持的搜索对话累计达50亿次,公司该季度搜索与广告收入同比增长近10%。根据StatCounter数据,Bing在搜索引擎中的市场份额已经由23年2月的2.8%提升至24年1月的3.4%。

附录:国内外大模型公司进展

2022年11月,OpenAI推出基于GPT-3.5的ChatGPT后,引发全球AI大模型技术开发与投资热潮。AI大模型性能持续快速提升。以衡量LLM的常用评测标准MMLU为例,2021年底全球最先进大模型的MMLU 5-shot得分刚达到60%,2022年底超过70%,而2023年底已提升至超过85%。以OpenAI为例,2020年7月推出的GPT-3得分43.9%,2022年11月推出的GPT-3.5提升至70.0%,2023年3月和2024年5月推出的GPT-4、GPT-4o分别提升至86.4%和87.2%。谷歌目前性能最佳的大模型Gemini 1.5 Pro得分达到85.9%。开源模型性能不容小觑,2024年4月推出的Llama 3 70B得分已经达到82.0%。

在语言能力之外,AI大模型的多模态能力也快速提升。2023年初,主流闭源大模型通常为纯文本的LLM。2023年至今,闭源模型的多模态能力具有大幅度提升,目前主流闭源大模型通常具备图像理解、图像生成能力。如图表24所示,虽然开源模型的文本能力有了较大提升,但大多数开源模型尚不具备多模态能力。目前大模型多模态能力的技术聚焦转向了原生多模态。全球仅谷歌和OpenAI发布了其原生多模态模型Gemini、GPT-4o。创建多模态模型时,往往分别训练不同模态的模型并加以拼接,而原生多模态模型一开始就在不同模态(文本、代码、音频、图像和视频)上进行预训练,因此能够对输入的各模态内容顺畅地理解和推理,效果更优。例如,对于非原生多模态模型的GPT-4,其语音模式由三个独立模型组成,分别负责将音频转录为文本、接收文本并输出文本、将该文本转换回音频,导致 GPT-4 丢失了大量信息——无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。而原生多模态模型GPT-4o,多种模态的输入和输出都由同一神经网络处理,因此信息丢失更少,模型效果更好。

AI大模型不断提升的同时,得益于算力芯片性能的提升与推理部署的优化,大模型应用成本快速下降,为基于大模型的应用发展创造了基础。目前OpenAI最前沿的GPT-4o (128k)输入输出的平均价格比2022年11月的GPT-3 Da Vinci低一半,主打高性价比的GPT-3.5 (16k)平均价格则比GPT-3 Da Vinci低95%。在GPT-4系列中,GPT-4o (128k)平均价格相较2023年3月的GPT-4 (32K)低89%。

海外:微软&OpenAI与谷歌领先,Meta选择开源的防御性策略

我们复盘了过去一年海外基础大模型训练企业在大模型技术、产品化和商业化上的进展。微软和OpenAI是目前大模型技术水平、产品化落地最为前沿的领军者,其对颠覆式创新的持续投入是当前领先的深层原因。谷歌技术储备丰厚,自有业务生态广阔并且是AI落地的潜在场景,过去由于管理松散未形成合力,我们看到谷歌从2023年开始整合Google Brain和Deepmind,目前正在产品化、生态化加速追赶。Meta选择模型开源的防御性策略,以应对OpenAI、谷歌等竞争对手的强势闭源模型。

微软&OpenAI:闭源模型全球领先,大模型产品化处于前沿

OpenAI最前沿模型GPT系列持续迭代。2022年11月,OpenAI推出的基于GPT-3.5的ChatGPT开启了AI大模型热潮。此后,OpenAI持续迭代GPT系列模型:1)2023年3月发布GPT-4,相比GPT-3.5仅支持文字/代码的输入输出,GPT-4支持输入图像并且能够真正理解;2)2023年9月发布GPT-4V,升级了语音交互、图像读取和理解等多模态功能;3)2023年10月将DALL・E 3与ChatGPT结合,支持文生图功能;4)2023年11月发布GPT-4 turbo,相比GPT-4性能提升,成本降低,支持128k tokens上下文窗口(GPT-4最多仅为32k);5)2024年5月发布其首个端到端多模态模型GPT-4o,在文本、推理和编码智能方面实现了 GPT-4Turbo 级别的性能,同时在多语言、音频和视觉功能上性能更优。GPT-4o 的价格是 GPT-4 turbo 的一半,但速度是其2倍。得益于端到端多模态模型架构,GPT-4o 时延大幅降低,人机交互体验感显著增强。

OpenAI多模态模型布局完整。在多模态模型方面,除了文生图模型DALL・E3,OpenAI在2024年2月推出了文生视频模型Sora,Sora支持通过文字或者图片生成长达60秒的视频,远超此前Runway(18秒)、Pika(起步3秒+增加4秒)、Stable Video Diffusion(4秒)等AI视频应用生成时长,此外还支持在时间上向前或向后扩展视频,以及视频编辑。

微软Phi系列小模型面向开源,将自研MAI系列大模型。微软自研小模型为客户提供更多选择,2023年发布Phi-1.0(1.3B)、Phi-1.5(1.3B)、Phi-2模型(2.7B),2024年开源了 Phi-3系列,包括3款语言模型——Phi-3-mini(3.8B)、Phi-3-small(7B)和Phi-3-medium(14B),以及一款多模态模型Phi-3-vision(4.2B)。此外,据The information 2024年5月报道,微软将推出一款参数达5000亿的大模型,内部称为MAI-1,由前谷歌AI负责人、Inflection CEO Mustafa Suleyman负责监督。

产品化方面,微软与OpenAI将大模型能力对原有的软件产品、云计算业务、智能硬件进行全面升级。1)微软围绕企业办公、客户关系管理、资源管理、员工管理、低代码开发等业务环节具有完整的产品矩阵,2023年以来推出相应的Copilot产品对原有产品进行AI大模型赋能,其中产品化最早、最为核心的是面向企业办公场景的Copilot for Microsoft 365,以及面向C端用户的Copilot for Windows,以及集成在Bing搜索、Edge浏览器的Copilot。2)云计算业务方面,Azure云业务向MaaS服务发展,提供算力、模型、数据工具、开发工具等服务。3)智能硬件方面,微软在2024年5月发布GPT-4o加持的Copilot+PC,除微软Surface以外,联想、戴尔、惠普、宏碁、华硕等PC厂商也将发布Copilot+PC新品。

谷歌:闭源模型全球领先,自有业务生态及AI潜在落地空间广阔

谷歌最前沿的闭源模型从PaLM系列切换到Gemini。2022-2023年,PaLM系列模型是谷歌的主力模型,2022年4月发布的PaLM、2022年10月发布的Flan PaLM以及2023年5月I/O大会发布的PaLM-2都是谷歌当时的主力大模型。2023年12月,谷歌发布全球首个原生多模态模型Gemini,包含 Ultra、Pro 和 Nano 三种不同大小。根据Gemini Technical Report,Ultra版在绝大部分测试中优于GPT-4。2024年2月,谷歌发布Gemini 1.5 Pro,性能更强,并且拥有突破性的达100万个Tokens的长上下文窗口。

2024年5月I/O大会上,谷歌对Gemini再次更新:1)发布1.5 Flash,是通过API提供的速度最快的Gemini模型。在具备突破性的长文本能力的情况下,它针对大规模地处理高容量、高频次任务进行了优化,部署起来更具性价比。1.5 Flash在总结摘要、聊天应用、图像和视频字幕生成以及从长文档和表格中提取数据等方面表现出色。2)更新1.5 Pro。除了将模型的上下文窗口扩展到支持200万个tokens之外,1.5 Pro的代码生成、逻辑推理与规划、多轮对话以及音频和图像理解能力进一步提升。

产品化方面,谷歌将大模型能力融入自有软件业务、云计算和智能硬件之中。1)自有软件业务:谷歌在2023年5月I/O大会上宣布将PaLM 2应用在超过25种功能和产品中,包括2B办公套件Workspace、聊天机器人Bard等等。随着谷歌主力大模型切换到Gemini,Workspace和Bard背后的大模型也同步切换。2)云计算:谷歌通过Vertex AI和Google AI Studio向MaaS延伸。Vertex AI是AI开发和运营(AIOps)平台,支持组织开发、部署和管理AI模型。Google AI Studio是基于网络的工具,可以直接在浏览器中设计原型、运行提示并开始使用API。3)智能硬件:2024年下半年,据Techweb,谷歌有望在10月推出Pixel9系列,预计将搭载基于最新Gemini模型的AI助手,执行复杂的多模态任务。

Meta:Llama开源模型领先

Meta凭借Llama系列开源模型在大模型竞争中独树一帜,目前已发布三代模型。Meta在2023年2月、7月分别推出Llama与Llama 2。Llama 2,提供7B、13B、70B三种参数规模,70B在语言理解、数学推理上的得分接近于GPT-3.5,在几乎所有基准上的任务性能都与PaLM 540B持平或表现更好。2024年4月,Meta发布Llama 3,Llama 3性能大幅超越前代Llama 2,在同等级模型中效果最优。本次开源参数量为8B和70B的两个版本,未来数个月内还会推出其他版本,升级点包括多模态、多语言能力、更长的上下文窗口和更强的整体功能。最大的400B模型仍在训练过程中,设计目标是多模态、多语言,根据Meta公布的目前训练数据,其性能与GPT-4相当。

Meta基于LLama系列模型打造智能助手Meta AI、雷朋Meta智能眼镜等硬件产品。Meta同时更新基于Llama 3构建的智能助手Meta AI,无需切换即可在 Instagram、Facebook、WhatsApp和 Messenger的搜索框中畅通使用 Meta AI。Llama 3很快将在 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM和Snowflake 上推出,并得到AMD、AWS、戴尔、英特尔、英伟达、高通提供的硬件平台的支持。此外,雷朋Meta智能眼镜也将支持多模态的Meta AI。

国内大模型:格局清晰,闭源追赶GPT-4,开源具备全球竞争力

我们复盘了过去一年国内基础大模型训练企业在大模型技术、产品化和商业化上的进展:

1)国内闭源大模型持续追赶OpenAI:我们看到23年中到23年底的国内主流大模型对标GPT-3.5,23年,开始对标GPT-4。例如2023年10月更新的文心4.0(Ernie 4.0)“综合水平与GPT4相比已经毫不逊色”,2024年1月更新的智谱GLM-4整体性能“逼近GPT-4”,2024年4月更新的商汤日日新5.0“综合性能全面对标 GPT-4 Turbo”。

2)国内竞争格局逐渐清晰,阵营可分为互联网头部企业、上一轮AI四小龙、创业企业。互联网头部企业中,目前百度与阿里在模型迭代与产品化上领先,字节跳动拥有领先的2C大模型应用豆包,但公开的大模型公司信息较少,腾讯的大模型迭代与产品化稍显落后。商汤是上一代“AI四小龙”公司中唯一在本轮AI 2.0浪潮中未曾掉队、持续创新领先的企业。创业公司中布局各有特色:智谱布局完整,开源、闭源模型兼具,2C/2B并重;月之暗面专注2C闭源,以长文本作为差异化竞争点;Minimax选择MoE模型,以2C社交产品切入;百川智能开源、闭源兼具,2B为主;零一万物从开源模型切入,目前开源和闭源模型兼具。

3)国内开源模型具备全球竞争力。以阿里Qwen系列、百川智能Baichuan系列、零一万物的Yi系列为代表的国内开源模型成为推动全球开源模型进步的重要力量。

百度:文心大模型持续迭代,B/C端商业化稳步推进

文心4.0综合能力“与 GPT-4相比毫不逊色”。继2023年3月发布知识增强大语言模型文心一言后,百度在2023年5月发布文心大模型3.5,2023年10月发布文心大模型4.0。相比3.5版本,4.0版本的理解、生成、逻辑、记忆四大能力都有显著提升:其中理解和生成能力的提升幅度相近,而逻辑的提升幅度达到理解的近3倍,记忆的提升幅度达到理解的2倍多。文生图功能方面,文心4.0支持多风格图片生成,一文生多图,图片清晰度提升。据百度创始人、董事长兼CEO李彦宏在百度世界2023上介绍,文心大模型4.0综合能力“与 GPT-4相比毫不逊色”。

AI重构百度移动生态。百度搜索、地图、网盘、文库等移动生态应用以AI重构。1)搜索:大模型重构的新搜索具有极致满足、推荐激发和多轮交互三个特点。2)地图:通过自然语言交互和多轮对话,升级为智能出行向导,提升用户出行和决策效率。3)百度网盘与文库:AI增加创作能力。网盘可以精准定位视频的特定帧,并总结长视频内容,提取关键信息和亮点。文库利用其庞大的资料库,辅助用户进行写作和制作PPT,成为生产力工具。4)百度GBI:用AI原生思维打造的国内第一个生成式商业智能产品。通过自然语言交互,执行数据查询与分析任务,同时支持专业知识注入,满足更复杂、专业的分析需求。

百度B/C端商业化稳步推进。根据李彦宏2024年4月在Create 2024百度AI开发者大会上的演讲,文心一言用户数已经突破2亿,API日均调用量也突破2亿,服务的客户数达到8.5万,利用千帆平台开发的AI原生应用数超过19万。

C端商业化:2023年10月推出文心一言4.0后,百度开启收费计划,开通会员后可使用文心大模型4.0,非会员则使用3.5版本。会员单月购买价格为59.9元/月,连续包月价格为49.9元/月,文心一言+文心一格联合会员价格为99元/月。文心一言会员可享受文心大模型4.0、文生图能力全面升级、网页端高阶插件、App端单月赠送600灵感值等权益,文心一格会员可享受极速生成多尺寸高清图像、创作海报和艺术字、AI编辑改图修图等权益。

B端落地:三星Galaxy S24 5G系列、荣耀Magic 8.0均集成了文心API,汽车之家使用文心API支持其AIGC应用程序。根据百度4Q23业绩会,百度通过广告技术改进和帮助企业构建个性化模型,在4Q23已经实现数亿元人民币的收入,百度预计2024年来自AI大模型的增量收入将增长至数十亿元人民币,主要来源包括广告和人工智能云业务。

阿里巴巴:通义大模型开源闭源兼具,落地行业广泛

通义千问2.5中文性能追平 GPT-4 Turbo。通义千问自2023年4月问世以来,2023年10月发布性能超越GPT-3.5的通义千问2.0,2024年5月发布通义千问2.5。在中文语境下,2.5版文本理解、文本生成、知识问答&生活建议、闲聊&对话,以及安全风险等多项能力上赶超GPT-4。

通义践行“全模态、全尺寸”开源。2023年8月,通义宣布加入开源行列,已陆续推出十多款开源模型。根据阿里云公众号,截至2024年5月,通义开源模型下载量已经超过700万。大语言模型方面,通义开源了参数规模横跨5亿到1100亿的八款模型:小尺寸模型参数量涵盖0.5B、1.8B、4B、7B、14B,可便捷地在手机、PC等端侧设备部署;大尺寸模型如72B、110B能够支持企业级和科研级的应用;中等尺寸模型如32B则在性能、效率和内存占用之间找到最具性价比的平衡点。此外,通义还开源了视觉理解模型Qwen-VL、音频理解模型Qwen-Audio、代码模型CodeQwen1.5-7B、混合专家模型Qwen1.5-MoE。

面向B端客户,通义通过阿里云服务企业超过9万,与诸多行业头部客户达成合作。根据阿里云公众号,截至2024年5月,通义通过阿里云服务企业超过9万、通过钉钉服务企业超过220万,现已落地PC、手机、汽车、航空、天文、矿业、教育、医疗、餐饮、游戏、文旅等领域。

面向C端用户,通义千问APP升级为通义APP,集成文生图、智能编码、文档解析、音视频理解、视觉生成等全栈能力,打造用户的全能AI助手。

腾讯:混元大模型赋能自身业务生态实现智能化升级

混元已经接入腾讯多个核心产品和业务,赋能业务降本增效。2023年9月,腾讯上线混元大模型。混元已升级为万亿级别参数的MOE架构模型。截至2023年9月,包括腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器在内的超过50个核心业务和产品接入混元大模型;2023年10月超过180个内部业务接入混元;2024年4月,腾讯所有协作SaaS产品超过400个应用全面接入混元,包括企业微信、腾讯会议、腾讯文档、腾讯乐享、腾讯云AI代码助手、腾讯电子签、腾讯问卷等等。

字节跳动:豆包大模型赋能内部业务,对话助手“豆包”用户数量居前

字节跳动在2023年并未对外官宣其大模型,在2024年5月火山引擎原动力大会上首次公开发布。字节豆包大模型家族涵盖9 个模型,主要包括通用模型 pro、通用模型 lite、语音识别模型、语音合成模型、文生图模型等等。字节跳动并未说明模型参数量、数据和语料,而是直接针对应用场景进行垂直细分。豆包大模型在2023年完成自研,已接入字节内部50余个业务,包括抖音、飞书等,日均处理1200亿Tokens文本,生成3000万张图片。

2C产品方面,字节跳动基于豆包大模型打造了AI对话助手“豆包”、AI应用开发平台“扣子”、互动娱乐应用“猫箱”以及AI创作工具星绘、即梦等。

2B方面,火山引擎也与智能终端、汽车、金融、消费等行业的众多企业已经展开了合作,包括OPPO、vivo、小米、荣耀、三星、华硕、招行、捷途、吉利、北汽、智己、广汽、东风本田、海底捞、飞鹤等。

商汤:“云、边、端”全栈大模型,5.0版本对标GPT-4 turbo

商汤日日新5.0综合性能对标GPT-4 turbo。2023年4月,商汤正式发布“日日新SenseNova”大模型体系,实现CV、NLP、多模态等大模型的全面布局。2024年4月,商汤日日新SenseNova升级至5.0版本,具备更强的知识、数学、推理及代码能力,综合性能全面对标 GPT-4 Turbo。日日新5.0能力提升主要得益三个方面:1)采用MoE架构,激活少量参数就能完成推理。且推理时上下文窗口达到 200K 左右。2)基于超过10TB tokens训练、覆盖数千亿量级的逻辑型合成思维链数据。3)商汤AI大装置SenseCore算力设施与算法设计的联合调优。

商汤推出“云、边、端”全栈大模型产品矩阵。1)云端模型即商汤最领先的基础模型系列。2)在边缘侧,商汤面向金融、医疗、政务、代码四个行业推出商汤企业级大模型一体机。一体机同时支持千亿模型加速和知识检索硬件加速,实现本地化部署,相比行业同类产品,千亿大模型推理成本可节约80%;检索大大加速,CPU工作负载减少50%,端到端延迟减少1.5秒。3)端侧模型方面,SenseChat-Lite 1.8B全面领先所有开源2B同级别模型,甚至在大部分测试中跨级击败了Llama2-7B、13B模型。日日新 5.0 端侧大模型可在中端性能手机上达到18.3字/秒的推理速度,在高端旗舰手机上达到78.3字/秒,高于人眼20字/秒的阅读速度。

风险提示

1) AI 技术落地不及预期。虽然 AI 技术加速发展,但由于成本、落地效果等限制,相关技术落地节奏可能不及我们预期。

2) 宏观环境放缓导致iPhone等产品销售不及预期,服务业务用户增速放缓。

3) 本研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。

本文来源:华泰证券研究所 (ID:huataiyjs) 原文研报:《AI大模型需要什么样的硬件?》2024年6月21日 黄乐平 分析师 S0570521050001/AUZ066 胡宇舟分析师S0570523070005/BOB674 权鹤阳 联系人 S0570122070045/BTV779 汤仕翯 联系人S0570122080264/BUQ838 于可熠 联系人S0570122120079

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章