开源!宇树科技重要动作

上海证券报
宇树科技宣布开源UnifoLM-WMA-0——跨多类机器人本体的世界模型-动作架构。该架构具备仿真引擎和策略增强两大核心功能,前者如虚拟训练场生成合成数据供机器人学习,后者可预测机器人未来行为优化决策。测试显示模型可实现交互可控生成和长程任务持续交互。

9月15日,宇树科技宣布开源UnifoLM-WMA-0——跨多类机器人本体的开源世界模型-动作架构。宇树科技介绍,UnifoLM-WMA-0专为通用机器人学习而设计,其核心在于一个可以理解“机器人与环境交互”物理规律的世界模型。

该世界模型具备两大核心功能:一是仿真引擎,作为交互式仿真器运行,为机器人学习提供合成数据;二是策略增强,可与一个动作头进行对接,通过预测未来与物理世界的交互过程,进一步优化决策性能。

通俗而言,仿真引擎像一个虚拟训练场,可以生成大量合成数据供机器人学习和训练;策略增强可以预测机器人在真实环境中的“下一步”,为决策提供参考。这让人形机器人不需要每次都在真实环境试错,也能变得更“聪明”。

宇树科技在五个开源数据集上完成模型训练,测试结果显示,模型作为仿真引擎,可根据“当前图像”及一定数量的“机器人未来动作”,实现交互可控生成。

此外,宇树科技介绍,其世界模型也有能力实现长程任务的持续交互生成,生成结果与原视频对比如下所示:

宇树科技称,为了推进全球具身智能行业发展,宇树科技现将此世界模型-动作架构完整开源并持续更新,一起让通用机器人尽早成为可能。

在一众人形机器人企业中,宇树科技以强悍的硬件能力著称,但其在软件上的布局不容小觑。去年8月的2024世界机器人大会期间,宇树科技创始人、CEO王兴兴向上证报等媒体表示:“宇树科技对AI的投资比较克制,因为太烧钱了。”

同一问题,在一年后的2025世界机器人大会上,王兴兴的答案是,宇树在具身智能模型研发上依然保持谨慎投入。虽然宇树的公司规模已有了较大扩张,但放在整个行业里,尤其和大型AI公司相比,规模仍小得多,投入也相对有限。

在他看来,目前机器人的硬件总体来说是够用的,但距离“足够好”还有差距。要实现更大规模应用、更低成本以及更高可靠性,硬件仍需不断完善。

对比而言,具身智能模型研发仍是当前最关键的任务。王兴兴表示,具身智能模型现在不够成熟,相比整个行业的需求,机器人的AI能力依然远远不足。简单来说,如果有一天,在这个场馆里,人形机器人可以自由地走来走去,你随口对它说一句话,它就能帮你完成一件事,具备足够的泛化性,那才可以说是真正达到一个比较理想的临界点。

谈及训练数据,王兴兴称,大语言模型只要数据量足够大、质量足够好,模型性能就能快速提升。但在机器人领域,这反而是一个很大的挑战。即便积累了海量数据,并用它训练出一款模型,但放到实体机器人上可能依然无法很好地对齐。也正因如此,机器人领域对AI模型本身的能力要求,比语言模型要高一个等级。

但王兴兴认为,在具身智能模型领域,并不是资源多、资金多、人多,就一定能做出全球最领先的技术——过去的经验已经充分证明这点。很多时候,一个中小团队也有可能做出更出色的成果。

本文作者:孙小程,来源:上海证券报,原文标题:《开源!宇树科技重要动作》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章