隔夜,在号称碾压GPT-4的多模态新模型Gemini带动下,谷歌隔夜股价大涨5%。至少谷歌自己对Gemini的能力是非常自信的,在各种宣传文案里把Gemini吹上了天,放出的演示视频效果也非常惊艳。
目前,Gemini的“精简版”Gemini Pro已经登陆谷歌AI聊天机器人Bard(仅限英文版)。但根据测试过的用户在X上的反馈,效果似乎没有那么理想,在基本事实、数学问题、生成新闻摘要等方面的表现可以说得上拉胯,甚至不如已经发布一年多的GPT-3.5.
比如,一位用户向Gemini询问,谁是2023年的奥斯卡最佳男主角,得到的是布兰登·格里森(Brendan Gleeson)这个错误的回答,不是真正的获奖者布兰登·弗雷泽(Brendan Fraser)。
明明完全具备访问互联网的能力,但Gemini连奥斯卡得主这一随手谷歌一下就知道的基本事实都出错,着实耐人寻味。
更离谱的是,Techcrunch记者向Gemini提出了同样的问题,它给出了不同的错误答案:奥斯汀·巴特勒(Austin Butler)。
而且,如上图所示,Gemini在其他奖项上也是一通胡编乱造。
获得95届奥斯卡最佳纪录片奖的电影是《纳瓦尔尼》,而非《所有的美丽与血泪》,获得最佳国际影片奖的是《西线无战事》,但Gemini给出的答案也是《所有的美丽与血泪》......
此外,科幻小说作家Charlie Stross也在最近发布的一篇博文中发现了更多的谬误,Gemini还会编造其他信息,比如说Stross本人为开发Linux内核做出了贡献,但实际上他从未参与过和Linux内核有关的项目。
Techcrunch记者又要求Gemini给出一个6个字母的法语单词,但Gemini的回答有7个字母。
不过,需要指出的是,华尔街见闻此前文章强调过,涉及控制字符数量的场景一向是AI的弱项,这是由于生成式AI背后的技术逻辑是上下文预测,基础是token而非字符。
华尔街见闻给ChatGPT下达了同样的任务,后者也给出了一个包含7个字母的错误答案。
在总结新闻方面,Gemini的表现似乎过度谨慎了——谨慎到影响了基本的使用体验。
如下图,一位X用户仅仅是要求它列出巴以冲突的最新情况,并没有要求Gemini做出评判,但Gemini却告诉用户:
要不你自己上谷歌搜一下吧。
华尔街见闻尝试了同样的问题,也得到了一样的建议:自己去搜吧!
相比之下,ChatGPT则给出了一个附有引文的列表式新闻摘要:
不过,有趣的是,当记者提问Gemini关于俄乌冲突的最新消息时,Gemini却没有回避,而是生成了一份新闻摘要。但这些信息已经过时一个多月了。
那么,写代码的能力呢?这可是AI对人类生产力提升最大的关键应用领域之一。
但X用户的反馈表明,虽然Gemini在写代码方面比之前版本的Bard有所改进,但Gemini的基础代码能力非常一般,甚至不如比它早得多的ChatGPT.
另一位X用户测试用AI生成一个小游戏的代码,结果ChatGPT第一次尝试就写出了代码,而Gemini需要3次。
总结一下,网友测试的反馈大概就是——不如GPT。
当然,目前能上手使用的Gemini Pro并不是 Gemini 性能最强的版本。最强的Gemini Ultra要等到明年某个时候才会在谷歌 Bard 和其他产品中推出。谷歌Gemini Pro对标的是比它早一代的GPT-3.5。
显然,Gemini Pro还有很大的进步空间。而最强的Ultra是不是像谷歌演示的那样神乎其神?要等到明年才能见分晓了。