本文作者:李笑寅
来源:硬AI
本周,AI圈“王炸”不断:谷歌宣布进入Gemini时代,“狂甩”一堆更新,直接对线提前一天“截胡”推出新品的OpenAI。
OpenAI的GPT-4o卓越的实时交互能力令人印象深刻,而谷歌的Project Astra同样以相媲美的能力作为反击,引发行业对AI助手的讨论度飙升。
根据已公开的信息,同样作为AI语音助手,GPT-4o和Project Astra都基于多模态模型打造,支持文本、图片和音视频内容的接收/生成,并能做到超短延迟、实时交互。
另外,根据此前的媒体报道,苹果已经与OpenAI达成协议,将在全新操作系统iOS 18中引入ChatGPT技术,而谷歌掌控着安卓系统的“命脉”。这不禁令人联想:GPT-4o和Gemini之间的这场对决会不会是下一个AI手机届的“iOS VS 安卓”?
正面“硬刚”,谁更胜一筹?
逐一对比GPT-4o和Project Astra(在Gemini中提供Gemini Live功能),会发现这两款AI助手的确存在细节差异。
1)使用场景
GPT-4o的响应延迟平均为320毫秒,最快在232毫秒内回应音频输入,接近人类对话的反应时间。在发布会演示中,GPT-4o的日常使用场景包括:口译、读写编码、数学教学、汇总并解读信息、视频识别情绪等。
Gemini Live的视觉识别和语音交互效果和GPT-4o不相上下,同样提供了对话式自然语言语音界面和通过手机摄像头进行实时视频分析的能力,反应速度也够快,能进行自然日常对话。DeepMind CEO Demis Hassabis形容其为“一直希望打造一款在日常生活中有用的通用智能体”。
从易用性来看,二者之间差别不大。
不过,一个可能导致市场反响不同的点在于,GPT-4o的演示是现场完成的,而谷歌的演示是发布会前录制的。
2)多模态能力
多模态能力是两款AI助手主打的宣传点,目前看来,GPT-4o可能在音频方面略微领先,而Project Astra展示的视觉功能则更胜一筹。
演示中,GPT-4o展示了逼真的声音、丝滑的对话流程、唱歌,甚至能够根据用户的预期猜测情绪;而Project Astra展示了更“高级”的视觉功能,比如能够“记住”你把眼镜放在哪里。
在多模态模型方面,Gemini依赖其他模型进行输出,包括使用Imagen 3处理图像和Veo处理视频;而GPT-4o采用的是原生的多模态,自发生成图像和声音。
3)产品定位
GPT-4o的推出引发了市场对于现实版“Her”的讨论,因其AI助手拥有情感表达充沛的女声,甚至具有闲聊和开玩笑的能力,而Project Astra虽然也是女声,但语气更加沉着冷静,更实事求是。
这体现出二者对于“AI助手”产品定位的不同,OpenAI希望其更“拟人化”,而谷歌则希望其更“代理化”。
谷歌曾表示,有意避免生产“Her”类型的人工智能。
在DeepMind上个月发表的论文中,该公司详细介绍了拟人化AI的潜在缺点,认为这种AI助手将模糊“人机界限”,可能会导致敏感信息泄露、人类情感依赖、代理能力削弱等问题。
4)访问路径
OpenAI表示,即日起在Web界面和GPT应用程序上推出GPT-4o的文本和视觉功能。该公司还表示,将在未来几周内增加语音功能,开发人员现可以访问API中的文本和视觉功能。
谷歌表示,Gemini Live将在“未来几个月”通过Google的高级AI计划Gemini Advanced推出。
有观点认为,OpenAI推出新功能的时点更早,可能意味着其产品在获取新用户方面更具优势。
5)费用
GPT-4o面向ChatGPT的所有用户免费开放,API价格降价50%。
不过,目前官方给出的免费限制在一定的消息数量上,超过这个消息量后,免费用户的模型将被切换回ChatGPT,也就是GPT3.5,而付费用户(每月20美元起)则将拥有五倍的GPT-4o消息量上限。
Gemini Advanced提供两个月的免费试用期,此后每月收费20美元。
AI眼镜会是下个战场吗?
伴随端侧AI应用的推进,AI助手将真正落地并应用于日常生活,届时其实际效用才会逐一显现。
不过,AI语音助手似乎暗示了一种新的电子科技趋势:从文本转向音频。
而接下来,视觉能力的深度融合似乎也正在路上。
发布会上,谷歌表示,Project Astra的另一重潜力在于,可以与谷歌眼镜一起配合使用——盲人戴上后,可以在日常生活中获得实时语音讲解。
Meta也推出了语音机器人MetaAI,用于其VR耳机和Ray-Ban智能眼镜。
有观点认为,现阶段,AI语音助手的加入可能推升AI手机成为赢家,但往后看,这些语音AI模型的终极形态将是智能眼镜。
本文来自微信公众号“硬AI”,关注更多AI前沿资讯请移步这里