百亿美金的平台扳手腕,云数据的生成式AI之争

硅兔赛跑
随着企业对数据的依赖程度越来越高,Snowflake和Databricks这两家云数据巨头正积极的通过收购布局,争夺这个领域的心智和市场份额。

Snowflake和Databricks一直是数据库领域关注度非常高的两家公司,虽然同在一个地盘,但各有特色,竞争一直没有摆到台面上。

而这一次的生成式AI浪潮,两家公司非常积极的通过收购布局,Snowflake完成了对Neeva(企业级AI搜索引擎)的收购,Databricks 13亿美金收购MosaicML(ML模型部署),并低调宣布对OmniML(模型压缩)的收购。

两家一改一直以来表面和睦、暗里较劲的态势,选择同一天举办公司最重要的年会,亮明自家的生成式AI布局,野心藏不住了。

Snowflake 2020年上市,目前市值579.2亿美金(2023.8.1),Databricks还未上市,根据上一轮融资,其估值已达到380亿美金。在生成式AI的加持下,Databricks的估值/未来上市市值能否追上Snowflake?Snowflake又能否更上一层楼?

作为投资了Snowflake的基金Madrona的合伙人Vivek和投资人Sabrina分享了他们对两家公司在生成式AI领域扳手腕的看法。

上周对数据和人工智能领域从业者来说是重要的一周,两个最重要的参与者——Databricks和Snowflake——分别在旧金山和拉斯维加斯举办了他们的年度会议(Databricks的Data and AI Summit和Snowflake的Summit)。

这两个巨头决定在同一周举办他们的重要活动,这大概率不是巧合。在过去十年中,SnowflakeDatabricks一直是朋友也是对手,但这一周明显表明,它们现在是彼此的主要竞争对手,而新的战场就是人工智能。

毫不奇怪的是,两个会议上的讨论和宣布大部分都围绕生成式人工智能。所传达的重要信息是,为了建立生成式人工智能战略,每家公司都必须从数据战略开始

不出所料,Databricks和Snowflake都为自己为什么可以在这一旅程中为客户提供最佳支持进行了论证。

两家公司从价值链的不同部分开始,曾经甚至是战略合作伙伴关系,为何在这个人工智能的新时代演变为如此激烈的竞争对手呢?

让我们深入探讨。

【快速免责声明:Madrona曾投资Snowflake的C轮,并仍持有该公司的一些股份。】

01Snowflake:从数据仓库到数据云

Snowflake由Benoît DagevilleThierry Cruanes于2012年创立。他们是两位在Oracle工作多年的数据库专家,他们敏锐地观察到大多数数据仓库“固化、昂贵且难以使用”。Dageville和Cruanes与Vectorwise的前首席执行官Marcin Zukowski合作,构建了基于三个关键前提的未来数据仓库:

1)完全基于云的架构;

2)将计算与存储分离,实现近乎无限扩展;

3)在计算资源使用上具有弹性,从而实现查询处理和灵活性方面的前所未有的速度。
如今,Snowflake已经从“仅仅”一个云数据仓库发展成为一个“数据云”,为客户提供访问、构建、协作和变现其数据的单一平台。仅用十多年时间,Snowflake已发展成为市值550亿美元的上市公司,为6000多家客户和许多《财富》500强企业提供服务。Snowflake已与主要超大规模云服务提供商(Azure、AWS和GCP)并肩作战,现在他们明确将目光投向人工智能领域以赢得更多关注。

为了实现这一目标,他们在人工智能和机器学习领域进行了一系列收购和产品推出,包括:

1)Snowpark允许数据科学家使用其首选编程语言进行端到端的机器学习工作负载开发、部署和编排。通过Snowpark,客户可以摄取、分析和转换其数据,以训练机器学习模型和运行更多的预测性分析。

2)Streamlit是一个数据驱动的应用程序构建工具,Snowflake于2022年3月以8亿美元收购。Streamlit使客户能够仅通过几行代码开发数据密集型应用程序。Streamlit简化了通过前端Web应用程序对数据分析任务和机器学习模型输出进行上下文化的过程。

3)Neeva是Snowflake今年早些时候收购的公司,旨在加速企业与数据的交互和搜索,尤其是以更具对话性的方式进行。

02Databricks: 构建Lakehouse

Databricks成立于2013年,仅比Snowflake晚一年。与Benoit和Theirry是行业从业者不同,Databricks是由一群与学术界和开源社区有着深厚渊源的人士创立的。

包括现任CEO Ali Ghodsi在内的七位创始人是UC Berkeley的AMPLab研究员,他们构思了Apache Spark,这是一个用于大规模数据处理的开源统一分析引擎。Spark已经发展成为最大且最常用的数据处理框架之一,在大规模数据工程、数据科学和机器学习方面起着重要作用。

Databricks最初的目标是商业化Spark,推出了企业级的Spark版本,提供了大型组织所需的所有功能(治理、支持、托管等)。Databricks随后发展成为创新的“Lakehouse平台”,统一了数据、分析和人工智能。统一的Lakehouse概念将“集成、存储、处理、治理、共享、分析和人工智能”融合在一个平台上。

在过去的十年中,Databricks已成为全球估值最高的私人公司之一,2021年估值达到380亿美元,并于近期实现了10亿美元的收入里程碑。他们为成千上万的企业客户和开源用户提供服务,并被视为最受瞩目的IPO之一。在所有这些增长中,他们越来越将自己定位为人工智能领域的领导者,并最近进行了重要的收购和产品发布,包括以13亿美元收购MosaicML(下文将更详细介绍),并开源了Dolly,这是一种以低于30美元的成本训练的指令调优LLM。

03 AI中的碰撞

Snowflake和Databricks都有良好的生态位,可以继续利用长期的结构性趋势,因为企业正在为生成式人工智能的转变做准备。随着生成式人工智能应用的广泛应用,这两家公司都试图将自己定位为战略性的多产品数据平台。以下是各自会议中的一些重要公告以及我们对每家公司整体人工智能战略的看法。

Snowflake主要公告:

开发者公告

1)Snowflake的原生应用框架:通过允许开发人员创建、分发和变现应用程序,以新的方式利用数据,可基于Snowflake的数据云扩展。

2)Snowpark容器服务:扩展数据可编程性和计算基础架构,以支持编程语言、访问第三方软件,并为托管全栈应用程序和LLM提供增强的安全性和治理。通过泛化Snowflake的计算平台,提供进一步的灵活性,使客户能够从底层(数据层)一直到UI层运行完整的端到端应用程序。

3)其他重要公告:Snowpipe流式处理功能;动态表格(也称为材料化表格);Document AI(一项新服务,用于提取文档中的非结构化数据);以及Iceberg Tables。

合作伙伴公告Snowflake宣布NVIDIAMicrosoftWeights & Biases等几个重要合作伙伴。

1)与NVIDIA的合作计划将其NeMo企业开发框架嵌入到Snowflake的数据云中,这将使Snowflake的客户能够构建和部署LLMs和基于人工智能的应用程序,利用存储在Snowflake中的专有数据。

2)与Microsoft的合作将扩展与Azure的合作伙伴关系,重点是围绕Microsoft Azure的OpenAI和Azure AI/ML服务进行新产品整合。该合作有可能将工作负载和客户引入数据云。

3)与Weights & Biases这家领先的MLOps平台的合作,Snowflake的容器服务使Weights & Biases能够加速在Snowflake数据云中进行ML模型、LLMs和LLM驱动应用的迭代开发。最终,这项合作将帮助企业和用户更轻松地构建和利用生成式人工智能。

4)除了这两家公司,Snowflake还宣布了与Alteryx、Hex、Dataiku、RelationalAI、Pinecone等公司的许多其他合作伙伴关系。

我们的看法

直到最近,Snowflake没有透露任何在现有能力上添加生成式人工智能的计划,许多投资者对Snowflake在这个领域(尤其是与Databricks相比)的竞争能力表示担忧。然而,在2023年的峰会上,Snowflake展示了一个强大的愿景,将自己定位为可信赖的数据云提供商,并以此打造了一个与生成式人工智能相关的强大故事。

Snowflake与Nvidia的合作,以及Snowpark容器服务的宣布,使他们在AI数据堆栈中成为一个更具可行性的参与者。他们想传达的核心观点是,他们可以让客户在Snowflake数据云中安全地访问、开发和部署LLMs和基于人工智能的应用程序,同时提供Nvidia GPU和AI软件的加速计算。

虽然他们的故事和传递的信息令人印象深刻,但我们认为他们在人工智能领域相对于Databricks仍然处于劣势状态...

Databricks主要公告:

开发者公告

1)LakehouseIQ基于LLM的自然语言接口,用于搜索和查询数据,并强大地理解客户的数据、内部行话和使用模式,以了解客户的架构、文档、查询、系统等。

2)LakehouseAIDatabricks在Databricks ML方面宣布了许多新功能,包括一些关于LLMOps的能力,例如整合数据、为机器学习准备数据集、微调和策划机器学习模型,以及部署模型本身。Databricks还宣布了关于向量搜索、特征服务和MLFlow Gateway的许多功能。

3)MosaicML就在峰会开始之前,Databricks宣布以13亿美元收购MosaicML,该收购在峰会期间定位为“构建GenAI模型的机器”。

4)其他值得注意的公告:Delta Lake 3.0、MLFlow 2.5支持不同后端LLMs、Lakehouse Apps和Databricks Lakehouse Monitoring智能监控。

我们的观点

Databricks通过将数据、人工智能模型、监控和治理能力整合到Lakehouse平台中,采取了统一的人工智能方法。因此,Databricks使客户能够更高效地开发他们的GenAI解决方案,并且客户认为Databricks是一个值得信赖的合作伙伴,平均而言,在机器学习开发方面更快速、更经济、更易于使用。

虽然Databricks已经被视为人工智能堆栈中的关键参与者,但通过对模型(如Dolly,一个开源的指令跟随LLM)的投资以及对MosaicML的重大收购,Databricks在GenAI领域巩固了其领导地位。Databricks继续强调他们的Lakehouse是GenAI初创企业训练和部署自己的人工智能模型的最佳方式,以成本效益的方式利用自己的专有数据,而不受大型科技公司的束缚。


04展望未来,我们可以期待什么呢?

尽管生成式人工智能的热潮已经持续了8个多月,但过去一周明确表明,Snowflake和Databricks正在展开竞争,争夺这个领域的心智和市场份额。那么,我们可以对这种加剧的竞争有哪些期待?


1.收购将继续进行→ Snowflake和Databricks都相对有良好的生态位来继续收购与其整体战略相辅相成的小公司。Snowflake在其资产负债表上拥有约40亿美元的现金,而Databricks则拥有可用于交易的高估值。同时,数百家AI和数据工具初创企业渴望在干旱的IPO市场找到出口。我们不认为Neeva和MosaicML会是这些巨头最后一次收购,市场将出现整合。


2.客户将受益→ 在Snowflake和Databricks之间逐渐升级的竞争中,最明显的赢家应该是他们的客户。这两家巨头正在快速为他们的平台添加新颖的产品和服务,构建“一站式商店”,供客户构建数据应用程序并利用LLMs。这种平台增强将有助于民主化访问人工智能,并让数据科学家、数据工程师和人工智能从业者能够更有意义地进行合作。

3.AzureAWS将赚取更多的利润→ 随着Snowflake和Databricks继续在AI市场上进一步扩张,它们将需要大量的计算能力,主要由Azure和AWS提供。数据工程师Anant Packidurali敏锐地观察到这一点。与Nvidia在AI中受益一样,为Snowflake和Databricks的计算需求提供基础设施的超大规模云服务提供商无论谁在AI竞争中获胜,都将获得利益。


随着企业对数据的依赖程度越来越高,以支持其生成式人工智能战略,我们相信Snowflake和Databricks都处于良好的位置,可以利用这一代的转变。尽管它们来自价值链的不同部分,并且它们的关系在过去十年的发展中发生了变化,但它们现在正处于一场奖励巨大的竞赛中。

本文作者: Vivek Sabrina,来源:硅兔赛跑,原文标题:《百亿美金的平台扳手腕,云数据的生成式AI之争

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。