迎接物理AI时代,“杭州六小龙”群核科技开源空间理解模型SpatialLM

让机器人“看懂世界”

日前,英伟达主办的GTC 2025全球人工智能盛会正在美国召开,物理AI成为关键词之一。

英伟达CEO黄仁勋在GTC上介绍了AI研发的发展历程,从最初的意识AI,到现在的生成式AI,预计即将进入代理式AI的时代,接下来将是物理AI,也就是机器人的时代。

在物理AI时代到来之前,如何让机器人具备真正“看懂世界”的核心能力,是行业的发力重点。

此次会议上上,“杭州AI六小龙”群核科技宣布开源了自主研发的空间理解模型SpatialLM,目前已在HuggingFace、GitHub、魔搭社区等平台上线。

群核科技向信风介绍,基于从视频中提取的点云数据,SpatialLM模型能够准确认知和理解其中的结构化场景信息,并基于这一视频生成物理正确的3D场景布局。

如此一来,企业可以针对特定场景对SpatialLM模型进行微调,降低具身智能训练门槛。

这一模型与群核科技2024年发布的空间智能平台SpatialVerse具有协同作用。

SpatialLM模型通过从视频到结构化场景的转化,将现实世界的数据转化为虚拟环境中的丰富场景,基于SpatialVerse的合成数据引擎,一个结构化场景又可泛化生成亿万级新场景。

这意味着,一个基于真实世界的场景可以演化成无数个新场景,大大降低了机器人的训练成本。

不过群核科技的SpatialLM并非独有,目前行业内已有公司推出类似的参数模型。

2024年,Meta发布了SceneScript模型,能将真实世界的场景转化为几何表示,并进行场景拓展。

据群核科技人士介绍,相比SceneScript,SpatialLM的重要优势在于支持对物理世界中空间信息的认知理解,和结构化描述;输入方面,SceneScript需要依赖Meta定制化的眼镜,但SpatialLM面向普通相机、手机的视频作为输入,更具通用性。

在空间和具身智能训练上,目前群核科技已与硅谷头部科技企业达成合作。

资本化进程上,群核科技已于今年2月向港交所递交IPO申请,有望成为“杭州六小龙”中首家上市公司。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章