风投“退烧”,向量数据库“降温”

硬AI
赛道进入红海,“钱途”未卜。
热钱涌入的向量数据库,不能投了?

今年向量数据库被大模型带火了,投资人也是蜂拥而至;

特别是在上半年,四家向量数据库初创公司Chroma、Qdrant、Weaviate和Pinecone就斩获了10多亿融资;最近就连腾讯云也发布了向量数据库;

但通过我们的观察发现,最近流向向量数据库的“热钱”少了很多,更多的是流向AI应用;

向量数据库真的是昙花一现么?

爬上“神坛”

大模型的确带火了向量数据库。

向量数据库最大的优势在于,能够把图片、视频、文本多样化的信息转化成向量,然后存储在数据库中,帮助大模型形成“长期记忆”,进而降低“幻觉”产生的可能性。

因为将输入的多样化信息转化成0、1这种机器更容易识别的语言,信息都以非常统一、清晰明了的格式进行过标注,所以在对数据库查询时,能够更快的检索出答案,并且按需匹配度也会更高。

对于大模型提供方,降本增效很明显;

具体来看,腾讯云向量数据库用于大模型预训练数据的分类、去重和清洗相比传统方式可以实现10倍效率的提升;而如果将向量数据库作为外部知识库用于模型推理,则可以将成本降低2-4个数量级。

对于企业用户侧,解决了最关键的数据隐私;

之前企业无法快速用上大模型,很大一方面因素在于通用大模型在专业度方面还不够,而要解决应对的问题就需要给大模型投喂相关领域的数据进行训练,这个过程就会涉及到数据安全;

向量数据库就刚好可以解决企业这方面的担忧。

在我们此前对话面壁智能CEO李大海时,他也明确表示过:向量数据库相当于为企业的私域数据进行加密,大模型提供方无法直接用这部分数据进行模型训练。

总的来看,正式由于向量数据库表现出“双赢底色”,所以让它一度成为VC的偏爱。

赛道进入红海,VC刹车了

VC的爱动摇了。

任何一个赛道想要有持续的热度,或者长期投资价值;

要么是技术迭代非常快,或者是门槛壁垒高,又或者是商业模式好;

但当下来看,向量数据库并不完全满足以上条件。

首先,技术迭代慢,没有新的突破。向量数据库比较核心的技术就是索引(FLAT、HNSW、IVF)、相似度计算(余弦相似)、Embedding(将各种信息转化成向量,降低信息复杂性);这些技术在大模型火之前就有了,时至今日本质上没有显著变化。

其次,赛道进入门槛比较低。无论是大模型提供方,还是传统数据库厂商都可以转型进入这部分业务;这也就导致竞争会变得非常激烈。对于初创型公司来说,无论是拼财力还是拼客户都完全没有优势。

最后,商业模式前景不明朗。

比如数据库公司Singularity Data创始人就公开表示过:现在入局向量数据库可能并非合适的时机:

“一方面,市场上向量数据库产品已经非常多了,行业进入红海战争,价格战未来也在所难免;

另一方面,产品差异化不大,且并非不可替代。”

好比说,向量数据库的出现并不代表将Postgres或NoSQL这样的传统数据库拒之门外了。事实上,Postgres本身就有一个内置的Pgvector功能可以进行向量或相似性搜索。

对于很多企业来说,向量数据库并非是必选项。

但在一轮融资热潮过后,投资方所期待技术革新、不可替代性、以及良好的商业模式并没有得到足够多的验证,

所以,投资的风口便会悄然变化。

 

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。