日前,英伟达主办的GTC 2025全球人工智能盛会正在美国召开,物理AI成为关键词之一。
英伟达CEO黄仁勋在GTC上介绍了AI研发的发展历程,从最初的意识AI,到现在的生成式AI,预计即将进入代理式AI的时代,接下来将是物理AI,也就是机器人的时代。
在物理AI时代到来之前,如何让机器人具备真正“看懂世界”的核心能力,是行业的发力重点。
此次会议上上,“杭州AI六小龙”群核科技宣布开源了自主研发的空间理解模型SpatialLM,目前已在HuggingFace、GitHub、魔搭社区等平台上线。
群核科技向信风介绍,基于从视频中提取的点云数据,SpatialLM模型能够准确认知和理解其中的结构化场景信息,并基于这一视频生成物理正确的3D场景布局。
如此一来,企业可以针对特定场景对SpatialLM模型进行微调,降低具身智能训练门槛。
这一模型与群核科技2024年发布的空间智能平台SpatialVerse具有协同作用。
SpatialLM模型通过从视频到结构化场景的转化,将现实世界的数据转化为虚拟环境中的丰富场景,基于SpatialVerse的合成数据引擎,一个结构化场景又可泛化生成亿万级新场景。
这意味着,一个基于真实世界的场景可以演化成无数个新场景,大大降低了机器人的训练成本。
不过群核科技的SpatialLM并非独有,目前行业内已有公司推出类似的参数模型。
2024年,Meta发布了SceneScript模型,能将真实世界的场景转化为几何表示,并进行场景拓展。
据群核科技人士介绍,相比SceneScript,SpatialLM的重要优势在于支持对物理世界中空间信息的认知理解,和结构化描述;输入方面,SceneScript需要依赖Meta定制化的眼镜,但SpatialLM面向普通相机、手机的视频作为输入,更具通用性。
在空间和具身智能训练上,目前群核科技已与硅谷头部科技企业达成合作。
资本化进程上,群核科技已于今年2月向港交所递交IPO申请,有望成为“杭州六小龙”中首家上市公司。