迎接物理AI时代，“杭州六小龙”群核科技开源空间理解模型SpatialLM

2025-03-20 17:33

155

让机器人“看懂世界”

日前，英伟达主办的GTC 2025全球人工智能盛会正在美国召开，物理AI成为关键词之一。

英伟达CEO黄仁勋在GTC上介绍了AI研发的发展历程，从最初的意识AI，到现在的生成式AI，预计即将进入代理式AI的时代，接下来将是物理AI，也就是机器人的时代。

在物理AI时代到来之前，如何让机器人具备真正“看懂世界”的核心能力，是行业的发力重点。

此次会议上上，“杭州AI六小龙”群核科技宣布开源了自主研发的空间理解模型SpatialLM，目前已在HuggingFace、GitHub、魔搭社区等平台上线。

群核科技向信风介绍，基于从视频中提取的点云数据，SpatialLM模型能够准确认知和理解其中的结构化场景信息，并基于这一视频生成物理正确的3D场景布局。

如此一来，企业可以针对特定场景对SpatialLM模型进行微调，降低具身智能训练门槛。

这一模型与群核科技2024年发布的空间智能平台SpatialVerse具有协同作用。

SpatialLM模型通过从视频到结构化场景的转化，将现实世界的数据转化为虚拟环境中的丰富场景，基于SpatialVerse的合成数据引擎，一个结构化场景又可泛化生成亿万级新场景。

这意味着，一个基于真实世界的场景可以演化成无数个新场景，大大降低了机器人的训练成本。

不过群核科技的SpatialLM并非独有，目前行业内已有公司推出类似的参数模型。

2024年，Meta发布了SceneScript模型，能将真实世界的场景转化为几何表示，并进行场景拓展。

据群核科技人士介绍，相比SceneScript，SpatialLM的重要优势在于支持对物理世界中空间信息的认知理解，和结构化描述；输入方面，SceneScript需要依赖Meta定制化的眼镜，但SpatialLM面向普通相机、手机的视频作为输入，更具通用性。

在空间和具身智能训练上，目前群核科技已与硅谷头部科技企业达成合作。

资本化进程上，群核科技已于今年2月向港交所递交IPO申请，有望成为“杭州六小龙”中首家上市公司。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。