ChatGPT引爆「向量数据库」赛道!两家公司共获10亿元融资

AIGC开放社区
当创业者的目光聚焦在类ChatGPT大语言模型、应用、衍生产品时,为其提供“后勤服务”的向量数据库拓宽了生成式AI细分创业赛道,并成为下一代生成式AI应用的主要数据库存储。

4月22日,向量数据库平台(vector database)Weaviate宣布获得5000万美元(约3.5亿元)B轮融资,由Index Ventures领投,Battery Ventures等跟投。

4月28日,向量数据库平台Pinecone宣布获得1亿美元(约7亿元)B轮融资,由Andreessen Horowitz领投,ICONIQ Growth等跟投。

最近,为ChatGPT等生成式AI应用提供向量搜索、向量数据存储、向量嵌入等功能的向量数据库赛道突然走红,两家初创公司Pinecone和Weaviate的融资时间仅间隔6天,其火爆程度可见一斑。

Pinecone联合创始人兼首席执行官Edo Liberty则直言,如果没有ChatGPT的出现,我们根本不可能获得巨额融资。

事实上,在ChatGPT火爆出圈之前向量数据库非常小众,而Pinecone和Weaviate皆创立于2019年无论是融资还是营收并不如意,因为,大型科技巨头具备自研能力无需使用第三方产品,例如,微软将向量搜索技术应用在Bing中。

现在,大量开发者涌向生成式AI应用开发领域,这使得蛰伏4年的两家向量数据库厂商终于迎来了曙光,其用户数量呈指数级增长,也是获得巨额投资的重要原因之一。

Pinecone融资信息

当创业者的目光聚焦在类ChatGPT大语言模型、应用、衍生产品时,为其提供“后勤服务”的向量数据库拓宽了生成式AI细分创业赛道,并成为下一代生成式AI应用的主要数据库存储。

不过,目前向量数据库存储只有大型科技巨头才能使用,而Pinecone和Weaviate希望简化使用流程降低成本,使得中小型企业、个人开发者也能使用向量数据库。

微软专家介绍向量搜索

此外,根据 IDC调查数据显示,全球在AI技术和服务上的支出2023年将达到1540亿美元,到2026年将超过3000亿美元。其中,向量数据库为AI的开发、增强内容生成的准确性提供了重要技术支撑。

下面「AIGC开放社区」将为大家介绍向量数据库技术概念、与ChatGPT等大语言模型的关系、技术特征、场景化落地以及Pinecone和Weaviate这两家典型厂商的介绍。

什么是向量数据库

笔者查询了国外大量权威的论文、专业技术网站,甚至询问了ChatGPT,它们对向量数据库的技术概念解释非常复杂难以理解。所以,就用通俗易懂的方式为大家介绍向量数据库概念。

简单来说,向量数据库用来存储非结构化数据,例如,文档、图片、视频、音频和纯文本等,在保证100%信息完整的情况下,通过向量嵌入函数来精准描写这些非结构化数据的特征,从而提供查询、删除、修改、元数据过滤等操作。而像SQL、Mysql这样传统的数据库根本无法完成这些操作。

从向量数据库的技术特性不难看出,这是专门为ChatGPT等生成式AI应用量身定制,例如,让ChatGPT用莎士比亚的语气生成一段诗句,ChatGPT通过向量数据库的相似搜索功能,可以增强内容输出的准确性。

因此,向量数据库在大语言模型、计算机视觉、推荐系统以及其他需要语义理解和数据匹配的领域得到广泛应用。

向量数据库主要功能和用例

向量数据库除了存储数据之外,还提供了语义搜索、图像/音频/视频/等非结构化数据相似度搜索、排名和推荐引擎、支持大规模数据、索引与压缩技术、分布式架构等功能。

语义搜索:通常搜索文本和文档可以用两种方式完成,词法搜索和精准的单词或字符串匹配。向量数据库的语义搜索可以理解文本、句子和整个文档字符串的含义和上下文,从而提供更准确和相关的搜索结果。

图像/音频/视频/等非结构化数据相似度搜索:图像、音频、视频和其他非结构化数据集,在传统数据库中进行分类存储非常具有挑战性,通常需要将关键字、描述和元数据手动应用于每个对象。

向量数据库的相似性搜索功能,如余弦相似性、欧氏距离等度量来衡量向量间的相似性。这使得用户在处理如图像识别、推荐系统等变得非常高效。

排名和推荐引擎:该功能对于电商、搜索引擎来说非常有用,例如,微软的Bing,网易云音乐的推荐都应用了该技术。该功能主要基于用户最近匹配项查找相似项目,使向量数据库为用户提供相关的最佳内容选择,并且可以根据相似性分数对项目进行排名。

支持大规模数据:向量数据库具有良好的扩展性,能够支持大规模的向量数据存储和检索。这对于处理海量数据的大语言模型、机器学习、数据科研等非常有用。

索引与压缩技术:为了提高搜索速度和降低存储成本,向量数据库通常采用先进的索引和压缩技术。这些技术可以有效地降低数据的存储空间,提高查询速度,并降低内存占用。

分布式架构:为了实现高可用性和容错能力,向量数据库采用分布式架构。这使得用户可以在多个计算节点上分布存储和处理数据,提高系统的整体性能。

Pinecone和Weaviate简单介绍

根据公开资料显示,Pinecone创立于2019年总部位于美国纽约,主要提供向量数据库服务。Pinecone曾在2021年1月27日,获得1000万美元种子轮融资;2022年3月29日获得2800万美元A轮融资。开发者通过API就能轻松将向量搜索功能添加到应用程序中。官网地址:https://www.pinecone.io/

Weaviate创立于2019年总部位于荷兰阿姆斯特丹,是一家开源向量数据库服务商。Weaviate主要提供的服务包括:向量搜索、混合搜索、生成搜索等服务。开源地址:https://github.com/weaviate/weaviate

本文来源: AIGC开放社区,原标题:《ChatGPT引爆「向量数据库」赛道!两家公司共获10亿元融资》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。