具身智能行业正从Demo演示转向实战检验的阶段,下半年将是行业的“交卷”时刻。
智元对此的回答是:今年将有几千台的出货量,并已中标中国移动7800万订单。
在商业模式上,智元选择做软硬件全栈优化的“苹果”,而非开放接口的“安卓”,为B端客户提供极致体验和可靠的产品。
技术路线上,智元采用真实数据与世界模型双轮驱动,姚卯青强调,真实世界的物理规律很难用合成数据完全涵盖,实采数据是核心资产。
姚卯青判断,与高度同质化的新能源车不同,具身智能的应用场景广阔,未来每个细分市场都将诞生专业的公司。
媒体:很多投资人认为今年下半年到明年上半年是具身智能的窗口期,智元什么时候会给市场交出一份答卷?
姚卯青:我同意“下半年交卷”的说法。现在行业团队很多,大家做的PR和Demo也有些类似,无论是在工厂还是家居场景,都很难分辨谁的能力更强。最主要的方式是实战检验。对于智元这样的头部公司,市场会看你的营收和实际效果。下半年,我们会密集进入真正由行业来检验成果的阶段。
媒体:在产业落地方向,智元7月初中标中国移动7800万订单,能否介绍一下其应用场景、具体功能和单价?
姚卯青:这个项目是中国移动定制的双足人形机器人。产品主要会应用在移动的营业厅等门店,做一些接待、讲解等交互工作。这是我们在类似场景迈出的第一步,后续在运营商、酒店、银行等服务接待场景,都有海量的需求。这只是我们应用方式的一种。我们的目标是通过智能创造无限可能,通过交互让机器人先进工厂,工厂之后是零售服务业,最终在若干年后进入家庭。
媒体:从交付速度来看,目前产业链的进展如何?
姚卯青:我们今年进入了集中的商业交互阶段,会有几千台的出货量。从现在来看,供应链确实是一个比较大的挑战,尤其是上游的关节、减速器等核心机构。要达到大的产能,同时保证产品一致性,整个行业还在提升过程中。我们接触的供应商目前偏中小企业,我们也在陪他们成长。
媒体:智元选择本体、大脑、小脑全栈自研的路线,挑战是什么?投入精力上是否有偏重?
姚卯青:要实现最终落地,就必须形成一个闭环的飞轮,所以我们不得不把这些事情都做好,很难将其中一块完整外包出去。在实践过程中,这是一个循环往复、依次迭代的过程。可能在某个时间点做一些本体设计,之后收集数据进行迭代,然后发现新的提升需求,再回头优化本体设计。所以在投入方面,我们团队各个方向都在努力。
媒体:您如何看待真实数据与合成数据两种路线?
姚卯青:很多公司会从自身出发点去回答这个问题。但在实践过程中,我发现这很符合“插勺理论”,即合成数据很难涵盖所有我们想让机器人做的物理世界的事情。也许局部任务可以用仿真,但大部分只能依赖真实世界,这也是我们在实验中发现的。同时,那些比较依赖仿真的团队,据我了解,最近也在采集海量真实数据。
媒体:在真机数据采集上有哪些新的思路和进展?数据采集的成本如何?
姚卯青:数据采集有两方面,一是开放式场景采集,如家居、实验室等。二是在真实应用场景中采集,很多客户愿意开放作业现场或零售店给我们。我们会结合生成式和仿真技术做数据增广,比如改变环境、光照、操作物体的纹理形态等,来增加数据多样性。我们已经收到越来越多专业化的数据采集需求,例如家电公司希望我们帮他采集洗碗、洗衣的数据。这些数据会沉淀为我们最宝贵的资产。
关于成本,目前看并不是一个问题。未来成本是会下降的,一方面是机器自身成本下降,另一方面是机器人可以实现自主决策化的数据采集,而不需要所有动作都由人来完成。
媒体:请详细介绍一下世界模型?
姚卯青:世界模型有两条技术路线。一条是泛VLA(Vision-Language-Action)路线,在VLM(Vision-Language Model)基础上增加解码器直接生成动作。另一条路线,最早是用来模拟世界的,通过神经网络对物理世界进行建模。现在我们讲的主要是两种,一种是Action-Conditioned World Model,即给定动作去生成未来的画面 。另一种是它的共轭关系,叫World-Action Model,给定最终状态(比如抓取水瓶的画面)去生成为实现这个状态所需要的连续动作指令,比如每20毫秒输出一次的关节角度。这两种能力,一个能产生和模拟动作,一个能生成多视角一致的场景,对我们都很重要 。
媒体:智元会走向“安卓模式”,开放本体接口、专注于模型授权吗?另外如何应对车企的跨界竞争?
姚卯青:商业模式上,我们不太会走安卓的模式。智元作为本体厂商,更多是提供软硬件一体化、极致优化的产品给客户,更像苹果和特斯拉。安卓的体验在流畅度和安全性上不如iOS,我希望我们的产品能给用户带来极致体验。
对于车企跨界,这是一个必然的过程。他们在供应链、管理、智造以及智驾上都有优势。但对智元而言,具身智能是我们的唯一业务,我们必须做好。对于车企等大公司,这目前还只是早期布局,不是主营业务,投入也相对有限。当然不排除我们跑通模式后他们会“深踩油门”跟进。但好的一点是,具身智能产业的应用市场比新能源车大得多。机器人可以应用的行业很多,未来每个细分市场都可能会有专业的公司存在。
媒体:硬件和软件的降本路线是怎样的?
姚卯青:我们理性看待降本问题。智元主要面向B端市场,从取代人力的角度看,只要有一个合理的ROI(投资回报率)就可以,并非越低越好。随着工业场景应用的铺开,很多硬件可以开模生产,将智造成本降到较低水平,所以我们不太担心成本无法让客户接受。
媒体:机器人代替员工的难点在哪?
姚卯青:对很多产品而言,最大的挑战是性能和成功率。在我们提到的一些场景中,我们已经可以连续做到1万次0失误,达到了人的水平。但真正上线时,客户会有更高的预期,比如完全不影响原有产能等。当然,也可以通过人机共驾、远程接管等运营手段来解决初期问题。
媒体:智元有进入四足机器人领域的打算吗?
姚卯青:四足机器人在我们的“灵犀”产品线下会有布局。四足机器人作为一个成本较低、稳定性好、相对成熟的产品,我们在市场端也收到了很多需求,比如个人陪伴、家庭巡逻看护等。我们切入这个领域,不是为了“内卷”,而是希望通过更多的机器人产品和行业应用,来更好地理解市场对智能化的需求,获取更多数据和反馈,为我们的人形机器人发展提供指引。同时,四足和人形的供应链很多是复用的,四足的量产有助于关键零部件的降本、提升质量和一致性。
媒体:海外的商业化落地和国内有何不同?
姚卯青:欧洲、北美等海外市场比中国更保守一些,他们对交互类的应用场景关注相对较少,更多地会看工业等领域的应用是否具备降本的条件。海外的用工成本很高,且人员管理难度大,例如北美一些汽车工厂,工人缺勤率很高,这对产品稳定性和一致性是巨大挑战。相对而言,中国的员工更稳定,素质也更高。
媒体:您认为人形机器人供应链下一步发展的关键环节在哪?
姚卯青:关键环节主要有传感器、关节、计算芯片和电池这几类。特斯拉引入国产供应链,对整个行业是一个推动。就像过去我们国家通过引入特斯拉上海工厂,建起了完整的新能源车供应链体系一样。未来特斯拉的技术标准、对供应链的要求以及它的体量,都会对我们产业有很大帮助。