人形机器人 - 等待“Scaling Law”时刻

华泰证券谢春生等
华泰证券认为,目前机器人处于产业趋势投资前期。产业初期交付订单数并非关键指标,核心仍在于能否初步形成正确模型范式和数据飞轮。人形机器人的正向飞轮应为:大脑初步泛化→量产场景打开→硬件规模化降本→数据采集量提升→模型训练加强→“Scaling Law”有望体现带来大脑更加智能→进一步打开需求。

核心观点

8月27-28日我们组织了2025年秋季策略会,在人形机器人论坛上讨论了机器人的“Scaling Law”时刻、本体在工业场景落地的应用前景和解决方案、以及机器人开放平台的必要性。

核心亮点:

1、目前机器人处于产业趋势投资前期,我们认为初期订单数并不构成关键信号,核心在于能否解决人形机器人核心卡点:1)硬件成本高、结构复杂且未定型;2)大脑不够智能。硬件层面,以国内制造业企业大规模入场为基础,伴随特斯拉Optimus 3后续发布,硬件成本非线性下降和定型或快速突破。而软件层面,当前模型范式向双系统分层VLA收敛,但尚未出现机器人大脑的“ChatGPT”时刻。我们认为后续需重点关注机器人的大脑“Scaling Law”的智能涌现,有望真正意义上推动人形机器人的正向飞轮启动,产业开启非线性提速。若机器人在多个垂直场景出现持续性需求,有望加强市场对远期市场空间的信心和认可度,从而跳脱出“边际变化”+“百万台终局估值法”的投资范式。

2、大小脑路线是目前机器人大模型工程落地的主流。我们认为在几大机器人模型中:1)非端到端模块化模型借清晰链路与低成本攻占垂直场景,但由于其规则刚性,难以泛化。2)端到端VLA依赖海量数据,性能上限最高,但受制于训练技术、硬件储备、实时与可控门槛牵制。3)大小脑路线:将预训练大模型用作“思考”系统,以轻量控制的小模型完成思考到动作的“反射”,是考虑当前有限算力、任务成功率、数据效率、实时性、可解释性等要求下的最均衡的工程路径。国内目前愈发注重具身智能大模型的开发,行业重要参与者包括专注具身智能模型范式开发和迭代的企业(本体公司、和专注具身智能大模型开发的企业),也包括开发平台化企业,牵头打造机器人行业软硬件生态平台。目前国内具身大模型企业逐步收获融资青睐。

3、我们认为机器人落地场景率先在科研、教育、导览、展示表演等ToG场景。目前头部人形机器人厂商可在ToB工业制造场景执行相对简单且重复性的劳动,随着产业泛化能力提高,B端场景成为机器人商业化深水区的第一站。以服装制造为例,全球服装缝纫工人约6,000万人,存在工作时长、薪资带来的招工困难等问题,过去工业机器人在服装制造业应用较少,原因在于服装面料柔性、工艺非标、款式更新快,传统自动化编程的模式难以匹配。近年来大模型快速发展,端到端架构摆脱了编程过程,使得后续许多非标劳动替代成为可能。

正文

核心观点:在2025年6月6日发布的《2025年中期策略会速递——人形机器人论坛:产业化步入深水区》中,我们深度复盘了2022年以来人形机器人的行情。我们发现伴随产业进度不断加快,市场至今已深度认可人形机器人的远期赛道空间。从2022年特斯拉进军人形机器人赛道开始,行情经历过几轮起伏,但均是以龙头的机器人进展公布和更新催化带动的主题行情。而从4Q24开始,随着特斯拉以及国内机器人公司开启初步量产,市场已提前计价其渗透率跃升预期,叠加显著的预期前置效应,推动行情快速跨越纯主题阶段,当前我们将其定位为产业趋势投资前期。

从早期的纯主题行情向趋势行情切换,我们认为底层逻辑在于产业进度不断加快,加强了市场对人形机器人的远期市场空间的信心和认可度。2024年底-2025年初,机器人行情演绎的核心产业本质在于:机器人产业开始迈入实际小批量生产阶段。然而由于目前机器人大脑尚未体现出明显的智能能力,初步的量产需求更多来自于应用和测试等探索目的,订单需求持续性有待观察。

从产业趋势上看,目前人形机器人的卡点在于:1)硬件的降本和非标化;2)大脑的智能。我们认为随着今年开始中国产业链公司大规模布局人形机器人赛道,以投资、并购等多种方式进行业务拓展,中国制造业企业入场有望带来硬件成本非线性下降,硬件的卡点或不是核心难题。更重要的在于AI赋能下的机器人大模型创新,大脑有望跟随AI的“Scaling Law”范式实现智能泛化,有望真正开启产业趋势的提速。我们认为,若机器人行情想要复刻历史新能源车、智能手机等新兴智能终端的产业投资趋势,初步信号或在于形成了较成熟的硬件方案并开始在简单工业场景和特种应用场景落地(具备初步的泛化能力),初步信号或有望在未来两年出现。重点关注国外特斯拉和Figure、包括国内头部企业带来的机器人大脑“Scaling Law”进展。

机器人的“Scaling Law”或开启产业新一轮浪潮

随着AI进入推理时代,大模型诞生思维链等能力,有望开启端侧产品的新一轮改造和创新周期。在众多端侧产品当中,相较于音响、眼镜、相机、手机、PC等,机器人是不仅需要大语言模型赋能,更需具备自主移动或行动能力的具身智能载体。但由于人形机器人硬件结构新颖、复杂且未定型,需要AI大模型改造的创新周期也相对更长。

卡点一,硬件方案成本高,未收敛且缺乏标准。目前特斯拉机器人的BOM依旧较高,根据特斯拉AI Day,特斯拉机器人目标未来降至2万美金/台,关节模组、灵巧手、六维力等高价值量环节是降本核心。而各家人形机器人厂商在关节执行器、灵巧手、传感器的方案各不相同,如行星滚柱丝杠直线关节方案、微型丝杠/连杆/绳驱手部方案、轴向磁通/无框力矩电机电机、减速器等成为技术差异化的竞争点。

卡点二:软件缺乏强大的模型表征能力+高质量大规模数据。软件需要强大的模型表征能力+大规模高质量的数据(高效收集真实场景且对于算法模型有用的数据)。大脑泛化依赖数据以及小脑运控和硬件耦合,而机器人运动和操作的数据模态更复杂,需要从头开始定义数据,还要在真实环境里长期、大规模采集。大模型前,大脑的任务定义、拆解和运动代码生成是工程师做的,感知决策大模型将复杂的任务分解为一系列动作指令,交由操作大模型逐一执行;小脑算法是基于模型预观控制(MPC)和基于动力学模型的下层全身关节力控(WBC)为主。大模型后,趋向仿真/真实环境中强化学习+模仿学习。软件迭代缺乏高质量、低成本、大规模的数据集,但采数难点在于数据采集成本高、数据泛化难度大、专用场景数据缺失、缺乏统一的数据标准。

人形机器人实现创收与出货难度不大,关键是难在批量化生产和大规模落地实际应用。2025年以特斯拉为代表的头部人形机器人在特定场景实现了小批量量产和初步商业化,国内已有多家人形机器人本体企业宣布完成交付百台至千台。但深究交付场景,目前除了少数头部企业外,全球真正实现双足人形机器人商业闭环的公司较为稀缺,商业化交付走在前列的企业大多在小数量战略合作、数据采集、展示表演场景,虽短期创收可观,但订单持续性或有待观察。同时在当前数据采集、科研科教、展示表演等出货量较大的场景中,多为科研和场景训练等对泛化能力要求不高的需求,采购方在本体基础上进行算法研发,而本体公司更侧重于硬件卖铲人角色,并没有在软件层面实现技术突破。

因此,我们认为产业初期交付订单数并非关键指标,核心仍在于能否初步形成正确模型范式和数据飞轮。我们认为人形机器人的正向飞轮应为:大脑初步泛化→量产场景打开→硬件规模化降本→数据采集量提升→模型训练加强→“Scaling Law”有望体现带来大脑更加智能→进一步打开需求。我们目前观察到,头部人形机器人企业一方面开始落地VLA大模型,另一方面已经在一些对精度和作业能力要求相对较高的工业厂家做探索,进行真实数据的采集和模型的训练。

从产业趋势上看,美国公司特斯拉和Figure等,包括国内头部企业引领机器人大模型创新方向,大脑智能随着AI的“Scaling Law”范式有望实现非线性提速;中国产业链公司大规模布局人形机器人赛道,以投资、并购等多种方式进行业务拓展,国内制造业企业入场有望带来硬件成本非线性下降。随着软硬件迭代加速,人形机器人有望正式开启产业趋势的提速,类似于处于应用前期的智能手机、新能源汽车等大赛道,随着功能逐步完备和需求刺激,有希望在未来几年带来需求的非线性增长。

从模块化到端到端VLA,机器人大模型或趋近收敛

机器人大模型沿着模块化到端到端路径发展,VLA或将在产业界趋近收敛。随着大语言模型(LLM)以及多模态大语言模型(MLLM)的进步(,利用其能力来实现机器人的任务规划和运动控制变得更加可行。复盘学术界和产业界的机器人大模发展,我们认为主要分为3条技术路线:非端到端的模块化模型、端到端VLA模型和双系统分层VLA模型。

双系统分层VLA模型:产业界的主流选择

双系统分层VLA模型或是当下产业界的首选架构,Figure Helix等是典型代表。双系统分层VLA模型依然在VLA范畴内,采用异构模块(大模型对应大脑,小模型对应小脑)分工的架构,以结合大模型的认知能力和小模型的实时控制能力。Figure、智元机器人、Nvidia和Google均在大小脑结合的VLA模型上有建树,推动产业落地。

Figure HelixVLA由快慢两个系统组成,类似人类的大脑和小脑。2025年2月,Figure发布了第一个对整个人形上半身(包括手腕、躯干、头部和单个手指)进行高速连续控制的VLA——Helix,具有良好的泛化能力,支持端侧运行。VLM主干是通用的,但不是快速的,而机器人视觉运动策略是快速的,但不是通用的,Helix则通过两个互补的系统来解决这种权衡。Helix经过完全端到端训练,从原始像素和文本命令映射到具有标准回归损失的连续动作,只有单个训练阶段和一组神经网络权重。

1)慢系统也叫系统2(S2),是经过互联网数据预训练的端侧VLM-7B,以7-9Hz的频率运行,用于场景理解和语言理解,实现跨对象和上下文的广泛泛化。系统2可以使用开源的VLM,基于互联网规模的数据进行预训练,将机器人图像和机器人状态信息(包括手腕姿势和手指位置)投影到视觉语言嵌入空间后对其进行处理。VLM处理来自机载机器人摄像头的分段视频剪辑,并提示(prompt):“你会给机器人什么指令来让这个视频中的动作出现?”结合指定所需行为的自然语言命令,S2将所有语义任务相关信息提取到一个连续的潜在向量中,传递给S1以调节其低级别动作。

2)快系统也叫系统1(S1),是一个80M参数交叉注意力编码器-解码器Transformer,用于处理低级别控制,其预训练完全在仿真环境中进行。S1本质是一种快速反应性视觉-运动(visuomotor)策略。来自S2的潜在向量被投射到S1的token空间中,并与来自S1视觉主干的视觉特征沿序列维度连接,提供任务调节。S1以200Hz的频率输出完整的上半身人形控制,包括所需的手腕姿势、手指屈曲和外展控制,以及躯干和头部方向目标。

大小脑路线是目前机器人大模型工程落地的主流,端到端VLA是机器人通用AGI的远景。我们认为,非端到端模块化模型借清晰链路与低成本攻占垂直场景,但由于其规则刚性,难以泛化到开放任务。端到端VLA依赖海量数据,性能上限最高,但受制于训练技术、硬件储备、实时与可控门槛牵制。相比较而言,大小脑将预训练大模型用作“思考”系统,以轻量控制的小模型完成思考到动作的“反射”,在有限数据与算力下较好实现任务成功率、数据效率、实时性等要求,并保留可解释接口,因而成为当下最均衡的工程路径。若未来算力芯片效率/功耗持续优化、低成本大规模机器人数据生成被实现、大模型可解释技术得到突破,从第一性原理出发,端到端VLA或许依然是最优选择,能够最大程度实现跨场景泛化,而大小脑则充当桥梁,引导产业稳步过渡。

产业开始加大力度专注具身智能大模型开发

国内资本开始从硬件本体涌向具身智能大模型。作为通用机器人技术核心的具身智能算法即大模型,早期国内重视程度不如国外,本体厂商更受资本青睐,占据具身智能赛道绝大多数融资份额,科技大厂多是推出非具身智能大模型,对具身智能大模型研发投入有限。国外科技大厂对具身智能大模型重视程度高,入局时间早(如谷歌、英伟达等;谷歌已完成多次技术迭代,从Saycan到RT-H),具身智能大模型初创企业备受资本青睐,如SKid AI成立一年,于2024年7月完成3亿美元融资,投后估值达到15亿美元;Phvsical inteligence成立一个月,完成7000万美元融资,于2024年11月完成4亿美元融资,投后估值约24亿美元;Covariant高管于2024年8月起陆续被亚马逊雇佣(“人才收购”)。国内具身大模型赛道企业在2024年迎来融资潮流,2024年下半年以来多家具身智能大模型初创企业如千寻智能、穹彻智能等均获得亿级人民币融资敲定。

后续软件方向的重要参与者,除了专注具身智能模型范式开发和迭代的企业(包括本体公司、以及专注具身智能大模型开发的企业),我们认为也离不开做平台化能力的企业。机器人开发门槛高、选型匹配难、多机协同调度及软件使用难是软件开发和工程化落地过程中的普遍门槛。典型难度如:1)众多视觉感知零部件选型众多,涉及激光/视觉SLAM算法各不相同;2)很多应用场景缺乏落地数据和生态链工具。部分企业如仙工智能,以机器人控制器作为切入,做“机器人大脑”的开发平台,合作多个下游本体和零部件厂商,为机器人具身智能大模型搭建了开发平台,节省了重复工作的时间、提升行业开发效率。

商业化:多元应用场景逐步出现

我们认为机器人落地场景率先在科研、教育、导览、展示表演等ToG场景,中期落地ToB场景,是双足机器人商业化深水区的第一站,远期再落地ToC场景商业化,ToC市场空间大、非标程度高,或是人形机器人的终极市场。从落地难度和市场规模排序看,To C >To B >To G。

①ToG:科研院校此类ToG场景落地难度较低,科研院校采购机器人更多出于科研和场景训练,对泛化能力要求不高,本体公司不需实现软件层的技术突破,但可较快落地少量交付订单,目前已成为诸多创企优先切入的场景(基于先发和生产能力优势,国内宇树科技旗下Unitree H1已成为全球科研院校和AI公司优选产品,24H2公司已全球发货)。目前本体价格在持续下探,如众擎SA01售价4.2万元、松延动力N2售价3.99万元,宇树R1售价3.99万元。

②ToB:目前头部人形机器人厂商可在ToB工业制造场景执行相对简单且重复性的劳动,此类场景任务相对固定、场景属于半开放状态,机器人需具备一定的泛化能力。目前率先落地商业化的Agility Robotics,其Digit在工厂中执行任务包括从AMR 上拾取手提袋,再将手提袋放到传送带。我们认为随着产业泛化能力提高,B端如纺织、工业制造、汽车智能制造、仓储物流、安防巡检等结构化场景或成为机器人商业化深水区的第一站。

③ToC:ToC对人形机器人泛化要求更高,该场景存在较多干扰项且场景复杂,且不同群体不同需求对机器人的适配性要求高,因而对模型训练的泛化能力要求更高。

任务执行从标准化迈向非标化,商业化机会从聚焦垂类场景走向半通用场景。B端有望成为商业化深水区的第一站:一是需求侧,若算法规划、多模态感知及任务调度能力逐步积累,机器人持续拓展非标任务能力,B端刚需替代空间或优先释放,形成产业早期放量基础;二是成本侧,随着本体厂潜在需求释放、向供应链下达订单,硬件制造释放规模效应可助推机器人制造成本进一步下探,从而进一步提升机器人渗透率。我们认为,2030年前后B端应用有望进入装配、分拣、质检、柔性搬运等生产环节,C端预计先在安全看护、护理辅助与家务协作等需求明确、高频刚需场景落地,2035年前后,机器人在B端有望与AGV、机械臂等自动化系统形成柔性产线协同体系,在C端的复杂家庭环境逐步应用,部分高危环境作业场景也将进入全流程机器人化阶段。

场景:服装制造人形机器人应用大有可为,龙头企业产品规划清晰

全球服装制造年人工开支达万亿,AI发展使其机器替代成为可能。根据缝制机械协会,过去8年我国工业缝纫机内需+外销合计约5700万台,意味着全球工缝保有量近6000万台,假设按照人机比1:1的比例推算,对应目前全球缝纫工人数量在6000万人左右,按3~4万/年的人均薪酬估算,服装制造业年人工开支在万亿人民币量级,而工业缝纫机设备市场规模仅在百亿量级,意味着机器替代空间仍很大。虽然用工规模很大,但过去工业机器人在服装制造业应用较少,原因在于服装面料柔性、工艺非标、款式更新快,传统自动化编程的模式难以匹配。近年来大模型快速发展,其端到端的架构摆脱了编程过程,使得许多非标劳动的替代成为可能。

人形机器人与传统自动化有机结合,服装制造无人化行将致远。与传统工业机器人相比,AI虽然使得人形机器人具备一定泛化能力,但在最后一公里的精度控制/成功率上目前仍存在局限。以杰克科技在服装制造无人化的布局为例,对于服装制造工艺中如贴袋等较为复杂的A/B类工艺,公司先通过自动缝制单元、模板机等自动化产品实现去技能化,同时增强模板技术的柔性以拓宽模板机的使用场景,最后用人形机器人产品执行缝制以外剩下的上下料劳动。目前公司人形机器人夹爪已能从多层面料中准确分离单层面料,解决了面料抓取难题。公司自主人形机器人已完成产品原型开发,拟加快其在服装产业的批量化应用。

本文作者:谢春生、谢春生等,来源:华泰睿思,原文标题:《华泰 | 联合研究:人形机器人 - 等待“Scaling Law”时刻》,内容略有删减。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章