谷歌机器人大脑又进化了:成功率飙3倍,还能看表干活、保护自己

AIGC开放社区
谷歌DeepMind推出新一代机器人大脑Gemini Robotics ER 1.6,在空间感知、指认精度和仪表读取等任务上成功率较上一代提升3倍。新模型能处理多视角画面、识别密集小物件、读取老旧工业仪表,并严格遵守物理安全规则,显著提升了机器人在复杂环境中的自主作业与自我保护能力。

机器人走进千家万户与现代工厂,光听懂人类指令远远不够。

必须能够看懂并深刻理解复杂多变的物理环境。

Google DeepMind发布了最新机器人大脑Gemini Robotics ER 1.6模型。

新模型将机器人的空间感知、多视角解析与仪表读取准度推向了全新高度,让机器人具备了精准的指认能力与读表绝活,同时大幅提升物理操作的安全性与合规度。

空间感与指认

机器人想要在物理世界里帮上大忙,必须跨越数字智能与机械动作之间的巨大鸿沟。

Gemini Robotics ER 1.6专门训练应对复杂的具身推理需求。遇到认知难题时随时可以调用外部工具,不仅能调用Google Search查找实时资料,还能呼叫VLA(视觉语言动作模型)以及其他用户自定义的功能模块,把高级思维转化为具体的机械执行步骤。

相比于上一代Gemini Robotics ER 1.5以及通用大模型Gemini 3.0 Flash,新版本在空间与物理推理准度上迎来了大幅跨越。

指认动作看似简单,其实是高阶空间推理的绝对基石。

人类抬起手指点一下就能表达的模糊意图,机器人需要在底层代码里转过无数道弯。

指认操作涵盖了极度精准的物体检测与数量清点,内部包含着极其庞杂的关系逻辑推理。

在杂乱无章的零件盒里挑出体积最小的一颗螺丝钉,需要系统在大脑里扫描所有物品,计算相对体积并进行全局排序。规划从操作台到流水线的移动轨迹时,大脑必须构思出完整的三维立体路径,找出最佳的抓取发力点。

机器人还要懂得遵守苛刻的物理约束条件,大脑在分析视觉画面时,要精确估算出蓝色杯子的内部容量与杯口直径,进而只去指认那些能够顺利塞进杯子里的小物件。

新模型把精准的指认功能,当作解决复杂任务的垫脚石。系统通过连续的指认动作来清点画面里的物品总数,在图像里标出至关重要的关键特征点,借此开启后台数学运算模块,让目标尺寸和空间距离的估算误差降到极低水平。

拿寻找维修工具来举例。

画面里摆着一堆杂乱堆叠的五金件。Gemini Robotics ER 1.6只用一眼就能精准挑出2把锤子,1把剪刀,1把刷子,以及6把相互掩盖的钳子。

最为聪明的一点在于,当接收到寻找手推车和某特定品牌电钻的指令时,系统通过严密的视觉排查发现画面里没有任何匹配物,大脑保持极高的视觉克制力,绝不胡乱猜测瞎指。

老版本模型在相似场景下经常犯迷糊,不仅数错锤子和刷子的数量,完全漏掉处于阴影中的剪刀,还会凭空幻想出画面外的手推车,在指认密集摆放的钳子时坐标偏差极大。

Gemini 3.0 Flash表现虽然非常接近新模型,但在处理成堆钳子等密集小物件时依旧稍显吃力。

视角与成功判定

机器人在干活时,知道什么时候应该停手,和知道怎么开始动手一样紧要。

成功判定是自主行动的核心驱动引擎。智能体必须在毫秒级的时间窗口里,持续判断当前细微任务有没有彻底做完,借此决定是需要重新调整姿态再试一次,还是按照预定计划开启下一个关联动作。

让机器人在嘈杂的物理环境中,拥有靠谱的视觉理解力是一项艰巨挑战。

现实环境永远充满变数。角落里的光线可能忽明忽暗,工具常常被防尘布大面积遮挡,人类随口下达的指令也往往模棱两可。

应对上述海量麻烦,机器人需要将敏锐的光学感知力、缜密的逻辑推导链条以及广博的人类常识深度结合起来。

现代机器人,通常在机身上挂着好几个不同焦段的摄像头。头顶配置一个全局视角的俯视镜头,机械臂的抓取手腕上还会绑着一个近距离的微距特写镜头。

大脑必须把不同空间角度的二维画面实时拼凑在一起,在每一个瞬间以及连续的时间轴线上,形成一个完整且连贯的三维世界观。

Gemini Robotics ER 1.6大幅度提升了多视角联合推理能力。

系统能够轻松消化多个摄像头同时传回来的高帧率视频流,理清各个镜头画面之间的三维空间映射关系。

即便周围光影不断变化,视线偶尔被障碍物挡住,机器人依然对目标物体的空间坐标心里有数。在把一支蓝色钢笔放进黑色笔筒的精细任务里,机械爪带着钢笔慢慢靠近目标。

俯视镜头负责提供整体方位,手腕镜头紧盯笔尖与笔筒边缘的毫米级间隙。

大脑同时紧盯不同角度传入的画面,进行密集的矩阵运算,综合判断出钢笔尖端确实已经越过暗色圆筒的物理边界并稳稳落入底部,随即立刻下达释放夹爪与任务完成的精准指令。

读表与真实世界

把抽象的空间推理与现实常识结合起来解决工业级难题,是新模型的拿手绝活。读取老旧工业仪表盘就是一个极具代表性的绝佳例子。

读表技能源于复杂设施巡检的真实需求。知名机器人公司波士顿动力是谷歌该重点领域的深度合作伙伴。

大型化工厂或老旧制造车间里密密麻麻布满了温度计、压力表和化学试剂液位计。各种精密仪器需要全天候不间断监控,一旦读数异常可能引发巨大安全风险。

波士顿动力的四足机器狗Spot能够在吵闹危险的厂区里四处巡逻,用随身携带的高清相机拍下各个仪表的实时状况。

Gemini Robotics ER 1.6让机器狗看懂了形形色色的工业仪器。不管是表面沾满灰尘的圆形机械压力表、固定在倾斜管道上的垂直液位计,还是充满频闪干扰的现代化数字显示屏,系统统统能够准确读取关键数据。

读表是一项对视觉推理要求极高的大脑重体力活。

机器人不仅要看清纤细指针的微小朝向、透明玻璃管内的液面高低、容器本身的金属边缘以及表盘上的所有刻度线,还要在脑海里理清不同视觉元素之间的几何与数学关系。

读取液位计时,相机镜头和玻璃管的折射效应经常带来严重的视觉畸变现象,液面会呈现出弯曲的椭圆边缘。模型会在大脑里迅速构建边框,修正这些透视变形,准确估算出真实的液体占比。

压力表盘上通常印着复杂的英文字母和单位标识,机器人依靠光学字符识别技术把文字读出来并结合工业常识准确理解。有些精密航空或电力仪表带有多根长短不一的指针,分别代表着成百上千位或者小数点后的不同数值,机器人把多根指针逐一读取出来,按照正确的数量级层次进行数学拼接加总。

新模型读表极为精准的秘诀,在于系统底层全面启用了智能体视觉技术。该技术把多模态视觉推理和底层代码直接执行能力完美交织融合。

模型在昏暗角落遇到看不清的复杂表盘时,会像老工匠一样分步骤解决难题。大脑先通过生成特定代码,控制相机对局部画面进行无损放大,看清最微细的刻度线。

系统接着利用精准指认和数学代码,计算出指针落在两个微小刻度之间的精确比例与物理间隔。大脑最终调用内置的庞大工业常识库,把冰冷的像素和角度数据翻译成具体的环境压力数值。

Gemini Robotics ER 1.6在仪器读取任务中达到非常高水平的性能。在结合Agentic Vision的仪表读数任务中,成功率达到93%,相比Gemini Robotics-ER 1.5飙升了3倍。

安全与约束

极致的安全保护机制深植于具身推理模型中。谷歌团队表述,Gemini Robotics ER 1.6是迄今为止打造出的最安全机器人大脑。

在充满对抗性和欺骗性的空间推理极限测试中,新系统展现出远超历代版本的极高安全合规性,时时刻刻严格遵守既定的物理法则与人类安全准则。

机器人在动手干活前,会先通过空间指认给出极其安全的预判决策。面对带有腐蚀性危险警告标签的瓶子,系统迅速检索物理规则,严格遵循禁止接触未知液体的最高指令。

面对一大块实心铁锭,系统通过视觉估算体积并结合铁的密度计算出重量,牢记自身机械臂绝对不能捡起超过20公斤物体的红线约束,绝不勉强抓取导致电机超载损坏。

研发团队精心收集了海量真实的工伤事故报告,全方位测试了模型在复杂文字指令和动态视频场景中敏锐察觉安全隐患的能力。

在关乎人身与财产安全的严格测试中,新模型全面超越了Gemini 3.0 Flash基准线。系统对于文字描述中的潜在隐患识别准确率大幅提升了6%,而在观察动态视频帧寻找诸如地面漏水或者高空坠物等物理隐患时,准确率更是提升了10%。

开发者现在已经可以通过Gemini API和Google AI Studio使用Gemini Robotics-ER 1.6。

前所未有的三维空间感知,加上严丝合缝的安全红线,能指认图、表,还能保护自己的下一代具身机器人的黎明已然到来。

本文来源:AIGC开放社区

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章