北京时间4月13日上午,X平台的xAI官方账号发布了“Grok-1.5 Vison”版本的预告,并同时宣告,公司正在湾区招募设计师、工程师、产品、数据、架构和标注师等职位。马斯克也呼吁:“请加入xAI公司!”
xAI的招聘页面:构建人工智能,推动人类进步 [1]
从预告页面的介绍和秀肌肉的七个例子能看出来,Grok-1.5V版本主打多模态视觉信息处理,对标GPT-4,强调“理解物理世界的能力”。
以下为xAI官方的介绍,瓦砾粗译。[2]
一 官方介绍
介绍Grok-1.5V,我们的第一代多模态模型。除了强大的文本功能外,Grok现在还能处理各种视觉信息,包括文档、框图、图表和照片。Grok-1.5V即将向我们的早期测试者和现有的Grok用户推出。
能力
从多学科推理到理解文档、科学框图、图表、截图和照片,Grok-1.5V在多个领域都能与现有的前沿多模态模型相媲美。Grok在理解物理世界方面的能力尤其令我们兴奋。在我们新推出的RealWorldQA基准测试中,Grok的表现优于同类产品。对于下面所有的数据集,我们都是在没有思维链提示的情况下,对Grok进行了评估。
例子1 从框图生成代码
用户:你能把这个转化为Python代码吗?
Grok:当然!你提供的流程图描述了一个简单的猜谜游戏:计算机生成一个随机数,用户必须猜出它。下面是表示流程图中逻辑的Python代码:
这段代码将运行流程图中描述的猜谜游戏。用户将被提示输入他们的猜测,直到他们猜出正确的数字为止。
例子2 计算卡路里
用户:5片这个东西含有多少卡路里?
Grok:如果一份是3片,含有60卡路里,那么5片大约含有100卡路里。计算方法是首先确定每片的热量:60卡路里 / 3片=每片20卡路里。然后,将每片的卡路里乘以片数:每片20卡路里 * 5片 = 100卡路里。
例子3 从手绘到睡前故事
用户:这是我儿子画的,你能根据他的画讲一个睡前小故事吗?
Grok:很久很久以前,在一个充满冒险和奇迹的国度里,有一个勇敢的小男孩,名叫提米。提米和家人住在舒适的小房子里,他最喜欢的事情就是探索周围的世界。
在一个阳光明媚的日子里,提米决定去附近的森林探险。他带上了自己最喜欢的零食、指南针和他最信任的笔记本,准备把看到的所有令人兴奋的事物都画下来。
当提米走进森林深处时,他发现了一条在阳光下闪闪发光的神奇河流。这条河是如此迷人,以至于提米决定做一艘小纸船,顺流而下,作为给森林精灵的特别讯息。
提米小心翼翼地折好纸船,在上面画了一个笑脸,希望能给森林精灵带来欢乐。然后,他把小船放在河面上,看着小船载着他的友谊和对大自然的爱漂走了。
夕阳西下,提米知道是时候回家了。他为自己在森林里度过这神奇的一天感到庆幸,他知道自己将永远铭记这次探险。
回到家后,提米和家人分享了他的故事,家人听到他在森林里度过的神奇一天都非常高兴。他们一致认为,提米勇敢、善良的精神是一种真正的激励,他们知道,提米今后还会有更多精彩的冒险经历。
就这样,带着满心的爱和满脑子的梦想,提米渐渐进入了梦乡,他渴望发现,在他的想象世界里还有什么新的冒险在等着他。
例子4 解释梗图(meme)
用户:我不理解,请解释一下。
Grok:这幅图幽默地将初创公司和大公司作了对比。在标有“初创公司”的左侧,有一群人在一起挖洞。他们都在积极参与,洞已经挖得很深了。
在标有“大公司”的右侧,有一群人围着一个洞站着。然而,与初创公司不同的是,只有一个人在真正挖洞,其他人都在围观或干别的事。
这幅图的幽默感来自于对初创公司和大公司之间差异的夸大。在初创公司,人们往往有一种紧迫感,希望每个人都能直接为手头的任务做出贡献。相比之下,大公司往往被描绘为官僚主义更严重,所有团队成员对每个项目的直接参与更少。
例子5 把一个表格转为CSV文件
用户:请把这个表格转成csv文件
Grok:图片中的表格可转换为CSV格式,如下所示:
请注意,CSV格式不支持样式或格式化,因此信息以纯文本格式显示。
例子6 帮助处理露台上的朽木
用户:我露台上的螺丝周围出现了这些洞。是腐烂了吗?我应该更换木板吗?
Grok:看来你的露台上的木材已经开始腐烂。这表现在螺丝周围出现孔洞,这是木材腐烂的常见迹象。
为了确保露台的安全和使用寿命,建议更换受影响的木板。这将有助于防止露台受到进一步损坏,并保持其结构的完整性。
如果你不确定如何更换木板,咨询专业的露台建造商或承包商可能会有所帮助。他们将能够评估损坏的程度,并就露台的最佳行动方案向你提供专家建议。
例子7 解决编程问题
用户:你能编写Python代码解决这个问题吗?
Grok:
真实世界理解能力
为了开发有用的真实世界的人工智能助手,提高模型对物理世界的理解能力至关重要。为此,我们推出了一个新的基准——RealWorldQA。该基准旨在评估多模态模型基本的真实世界空间理解能力。虽然当前基准中的许多示例对人类来说相对容易,但它们往往对前沿模型构成挑战。
初版发布的RealWorldQA包含700多张图片,每张图片都有一个问题和易于验证的答案。除其他真实世界的图像外,该数据集还包括从车辆上拍摄经匿名化处理后的图像。我们很高兴能向社区发布RealWorldQA,并打算随着多模态模型的改进而不断扩展。RealWorldQA根据CC BY-ND 4.0协议发布。单击此处可下载677MB的数据集。[3]
展望未来
推进我们的多模态理解和生成能力,是构建能够理解宇宙的有益通用人工智能(AGI)的重要步骤。在接下来的几个月中,我们预计将在图像、音频和视频等各种模式上显著提高这两种能力。
来源:瓦砾村夫,原文标题:《马斯克Grok1.5V版本秀肌肉,展示“理解物理世界的能力”》,内容有删减