就在上周,谷歌23号员工Paul Buchheit表示,像ChatGPT这样的人工智能聊天机器人将像搜索引擎杀死黄页一样摧毁谷歌。
面对ChatGPT的威胁,谷歌已经紧张起来了。上周五,谷歌母公司Alphabet CEO桑达尔·皮查伊谷歌将在“未来几周或几个月”推出类似ChatGPT、基于人工智能的大型语言模型。
曾经的屠龙者,如今要成为被屠的巨龙了吗?
中信证券分析师陈俊云等认为,ChatGPT要想取代传统搜索引擎,还早得很,类似的人工智能聊天机器人,甚至都无法撼动当前全球搜索引擎市场竞争格局,但可以推动相关技术加速落地.
中短期内很难取代传统搜索引擎
分析师在试用ChatGPT时发现,相较于传统搜索引擎提供内容相关页面链接,ChatGPT可以直接生成面向问题的高完成度回答,并能够提供回答内容的相关引用链接(目前测试版本尚未开发这一功能)。此外针对开放式问题,ChatGPT也可以通过匹配网络中的数据生成较为完整的答案,在处理知识类以及创意类的问题时,ChatGPT提供的搜索体验远胜于目前的传统搜索引擎。
但是, 分析师认为,ChatGPT目前还存在三个致命的不足之处:
1) 数据的实时性问题。目前英文版本的ChatGPT数据截至2021年,而中文版本的ChatGPT数据截至2020年,数据库版本滞后的主要原因是由于语言类大模型的技术限制。ChatGPT目前的在GPT大模型上加入标注数据训练模式让实时数据的引入非常困难,如果要重新预训练模型,我们估计每次预训练需要用到1000块以上的英伟达A100显卡工作半个月至一个月的时间,成本在百万美元以上。而如果采用使用微调的方式专门训练新知识,会导致新知识的在模型内的权重过高,频繁的微调也会导致模型“遗忘”旧的知识。
2)数据的真实性仍不足可靠。在大量的测试后我们发现,虽然ChatGPT回答问题的准确性有所提高,但如果提出的问题较为模糊或者本身包含部分错误信息在内,模型有可能以“一本正经”的语气生成完全错误甚至凭空捏造的回答。真假答案的混杂会让用户在需要对专业性问题寻求答案时产生严重的困扰,这也是目前语言类大模型普遍存在的问题。据CSDN微信公众号报道,2022年11月几乎同一时间上线的Meta服务科研领域的语言类大模型Galactica就因为真假答案混杂的问题,测试仅仅3天就被用户投诉下线。
3)模型在线推理端成本高昂。根据模型的现有数据,我们假设每次生成的回答长度平均为50个词,使用8x英伟达A100用于推理的情况下,我们估算ChatGPT每一次生成答案的成本约为1.3美分,约为谷歌搜索引擎每次搜索成本的3倍。如果每天面对数以亿计用户的搜索请求,如此高昂的成本是公司所不能承受的,中短期内完全取代传统搜索引擎在商业模式上无法做到。
难以撼动现有搜索市场格局,但可以推动相关技术加速落地
除了ChatGPT背后的OpenAI,谷歌、百度等搜索大厂均在大语言模型上有深厚的积累,尤其是谷歌,其部分技术还要在ChatGPT之上。
随着谷歌计划将类似的AI聊天机器人融入搜索引擎中,中信预计ChatGPT的成功不会给搜索产业带来颠覆性的新入局者。但 ChatGPT的搅局,足以在搜索引擎中掀起“军备竞赛”,加速大语言模型相关技术的迭代。
分析师指出,目前的搜索引擎巨头可以借助ChatGPT的功能,来优化搜索时的用户体验,主要有三个方向:
1)考虑到ChatGPT在不同分类问题中的表现情况,限制ChatGPT搜索仅在知识类搜索场景下启用可以有效控制成本。
2)面对时效类问题时,模型自动判断转向传统搜索引擎生成答案,并通过传统搜索引擎的数据返回生成ChatGPT版本的汇总新答案。
3)针对回答真实性问题,加入对答案产生来源的引用注明给用户,让用户可以快速检验回答的可靠性。