随着企业对数据的依赖程度越来越高,Snowflake 和 Databricks 这两家云数据巨头正积极的通过收购布局,争夺这个领域的心智和市场份额。
Snowflake 和 Databricks 一直是数据库领域关注度非常高的两家公司,虽然同在一个地盘,但各有特色,竞争一直没有摆到台面上。
而这一次的生成式 AI 浪潮,两家公司非常积极的通过收购布局,Snowflake 完成了对 Neeva(企业级 AI 搜索引擎)的收购,Databricks 13 亿美金收购 MosaicML(ML 模型部署),并低调宣布对 OmniML(模型压缩)的收购。
两家一改一直以来表面和睦、暗里较劲的态势,选择同一天举办公司最重要的年会,亮明自家的生成式 AI 布局,野心藏不住了。
Snowflake 2020 年上市,目前市值 579.2 亿美金(2023.8.1),Databricks 还未上市,根据上一轮融资,其估值已达到 380 亿美金。在生成式 AI 的加持下,Databricks 的估值/未来上市市值能否追上 Snowflake?Snowflake 又能否更上一层楼?
作为投资了 Snowflake 的基金 Madrona 的合伙人 Vivek 和投资人 Sabrina 分享了他们对两家公司在生成式 AI 领域扳手腕的看法。
上周对数据和人工智能领域从业者来说是重要的一周,两个最重要的参与者——Databricks 和 Snowflake——分别在旧金山和拉斯维加斯举办了他们的年度会议(Databricks 的 Data and AI Summit 和 Snowflake 的 Summit)。
这两个巨头决定在同一周举办他们的重要活动,这大概率不是巧合。在过去十年中,Snowflake和Databricks一直是朋友也是对手,但这一周明显表明,它们现在是彼此的主要竞争对手,而新的战场就是人工智能。
毫不奇怪的是,两个会议上的讨论和宣布大部分都围绕生成式人工智能。所传达的重要信息是,为了建立生成式人工智能战略,每家公司都必须从数据战略开始。
不出所料,Databricks 和 Snowflake 都为自己为什么可以在这一旅程中为客户提供最佳支持进行了论证。
两家公司从价值链的不同部分开始,曾经甚至是战略合作伙伴关系,为何在这个人工智能的新时代演变为如此激烈的竞争对手呢?
让我们深入探讨。
【快速免责声明:Madrona 曾投资 Snowflake 的 C 轮,并仍持有该公司的一些股份。】
01Snowflake:从数据仓库到数据云
Snowflake 由Benoît Dageville和Thierry Cruanes于 2012 年创立。他们是两位在 Oracle 工作多年的数据库专家,他们敏锐地观察到大多数数据仓库 “固化、昂贵且难以使用”。Dageville 和 Cruanes 与 Vectorwise 的前首席执行官 Marcin Zukowski 合作,构建了基于三个关键前提的未来数据仓库:
1)完全基于云的架构;
2)将计算与存储分离,实现近乎无限扩展;
3)在计算资源使用上具有弹性,从而实现查询处理和灵活性方面的前所未有的速度。
如今,Snowflake 已经从 “仅仅” 一个云数据仓库发展成为一个 “数据云”,为客户提供访问、构建、协作和变现其数据的单一平台。仅用十多年时间,Snowflake 已发展成为市值 550 亿美元的上市公司,为 6000 多家客户和许多《财富》500 强企业提供服务。Snowflake 已与主要超大规模云服务提供商(Azure、AWS 和 GCP)并肩作战,现在他们明确将目光投向人工智能领域以赢得更多关注。
为了实现这一目标,他们在人工智能和机器学习领域进行了一系列收购和产品推出,包括:
1)Snowpark 允许数据科学家使用其首选编程语言进行端到端的机器学习工作负载开发、部署和编排。通过 Snowpark,客户可以摄取、分析和转换其数据,以训练机器学习模型和运行更多的预测性分析。
2)Streamlit 是一个数据驱动的应用程序构建工具,Snowflake 于 2022 年 3 月以 8 亿美元收购。Streamlit 使客户能够仅通过几行代码开发数据密集型应用程序。Streamlit 简化了通过前端 Web 应用程序对数据分析任务和机器学习模型输出进行上下文化的过程。
3)Neeva 是 Snowflake 今年早些时候收购的公司,旨在加速企业与数据的交互和搜索,尤其是以更具对话性的方式进行。
02Databricks: 构建Lakehouse
Databricks 成立于 2013 年,仅比 Snowflake 晚一年。与 Benoit 和 Theirry 是行业从业者不同,Databricks 是由一群与学术界和开源社区有着深厚渊源的人士创立的。
包括现任 CEO Ali Ghodsi在内的七位创始人是 UC Berkeley 的 AMPLab 研究员,他们构思了 Apache Spark,这是一个用于大规模数据处理的开源统一分析引擎。Spark 已经发展成为最大且最常用的数据处理框架之一,在大规模数据工程、数据科学和机器学习方面起着重要作用。
Databricks 最初的目标是商业化 Spark,推出了企业级的 Spark 版本,提供了大型组织所需的所有功能(治理、支持、托管等)。Databricks 随后发展成为创新的 “Lakehouse 平台”,统一了数据、分析和人工智能。统一的 Lakehouse 概念将 “集成、存储、处理、治理、共享、分析和人工智能” 融合在一个平台上。
在过去的十年中,Databricks 已成为全球估值最高的私人公司之一,2021 年估值达到 380 亿美元,并于近期实现了 10 亿美元的收入里程碑。他们为成千上万的企业客户和开源用户提供服务,并被视为最受瞩目的 IPO 之一。在所有这些增长中,他们越来越将自己定位为人工智能领域的领导者,并最近进行了重要的收购和产品发布,包括以 13 亿美元收购 MosaicML(下文将更详细介绍),并开源了 Dolly,这是一种以低于 30 美元的成本训练的指令调优 LLM。
03 AI中的碰撞
Snowflake 和 Databricks 都有良好的生态位,可以继续利用长期的结构性趋势,因为企业正在为生成式人工智能的转变做准备。随着生成式人工智能应用的广泛应用,这两家公司都试图将自己定位为战略性的多产品数据平台。以下是各自会议中的一些重要公告以及我们对每家公司整体人工智能战略的看法。
Snowflake主要公告:
开发者公告
1)Snowflake 的原生应用框架:通过允许开发人员创建、分发和变现应用程序,以新的方式利用数据,可基于 Snowflake 的数据云扩展。
2)Snowpark 容器服务:扩展数据可编程性和计算基础架构,以支持编程语言、访问第三方软件,并为托管全栈应用程序和 LLM 提供增强的安全性和治理。通过泛化 Snowflake 的计算平台,提供进一步的灵活性,使客户能够从底层(数据层)一直到 UI 层运行完整的端到端应用程序。
3)其他重要公告:Snowpipe 流式处理功能;动态表格(也称为材料化表格);Document AI(一项新服务,用于提取文档中的非结构化数据);以及 Iceberg Tables。
合作伙伴公告Snowflake 宣布NVIDIA、Microsoft和Weights & Biases等几个重要合作伙伴。
1)与 NVIDIA 的合作计划将其 NeMo 企业开发框架嵌入到 Snowflake 的数据云中,这将使 Snowflake 的客户能够构建和部署 LLMs 和基于人工智能的应用程序,利用存储在 Snowflake 中的专有数据。
2)与 Microsoft 的合作将扩展与 Azure 的合作伙伴关系,重点是围绕 Microsoft Azure 的 OpenAI 和 Azure AI/ML 服务进行新产品整合。该合作有可能将工作负载和客户引入数据云。
3)与 Weights & Biases 这家领先的 MLOps 平台的合作,Snowflake 的容器服务使 Weights & Biases 能够加速在 Snowflake 数据云中进行 ML 模型、LLMs 和 LLM 驱动应用的迭代开发。最终,这项合作将帮助企业和用户更轻松地构建和利用生成式人工智能。
4)除了这两家公司,Snowflake 还宣布了与 Alteryx、Hex、Dataiku、RelationalAI、Pinecone 等公司的许多其他合作伙伴关系。
我们的看法
直到最近,Snowflake 没有透露任何在现有能力上添加生成式人工智能的计划,许多投资者对 Snowflake 在这个领域(尤其是与 Databricks 相比)的竞争能力表示担忧。然而,在 2023 年的峰会上,Snowflake 展示了一个强大的愿景,将自己定位为可信赖的数据云提供商,并以此打造了一个与生成式人工智能相关的强大故事。
Snowflake 与 Nvidia 的合作,以及 Snowpark 容器服务的宣布,使他们在 AI 数据堆栈中成为一个更具可行性的参与者。他们想传达的核心观点是,他们可以让客户在 Snowflake 数据云中安全地访问、开发和部署 LLMs 和基于人工智能的应用程序,同时提供 Nvidia GPU 和 AI 软件的加速计算。
虽然他们的故事和传递的信息令人印象深刻,但我们认为他们在人工智能领域相对于 Databricks 仍然处于劣势状态...
Databricks主要公告:
开发者公告
1)LakehouseIQ:基于 LLM 的自然语言接口,用于搜索和查询数据,并强大地理解客户的数据、内部行话和使用模式,以了解客户的架构、文档、查询、系统等。
2)LakehouseAI:Databricks 在 Databricks ML 方面宣布了许多新功能,包括一些关于 LLMOps 的能力,例如整合数据、为机器学习准备数据集、微调和策划机器学习模型,以及部署模型本身。Databricks 还宣布了关于向量搜索、特征服务和 MLFlow Gateway 的许多功能。
3)MosaicML:就在峰会开始之前,Databricks 宣布以 13 亿美元收购 MosaicML,该收购在峰会期间定位为 “构建 GenAI 模型的机器”。
4)其他值得注意的公告:Delta Lake 3.0、MLFlow 2.5 支持不同后端 LLMs、Lakehouse Apps 和 Databricks Lakehouse Monitoring 智能监控。
我们的观点
Databricks 通过将数据、人工智能模型、监控和治理能力整合到 Lakehouse 平台中,采取了统一的人工智能方法。因此,Databricks 使客户能够更高效地开发他们的 GenAI 解决方案,并且客户认为 Databricks 是一个值得信赖的合作伙伴,平均而言,在机器学习开发方面更快速、更经济、更易于使用。
虽然 Databricks 已经被视为人工智能堆栈中的关键参与者,但通过对模型(如 Dolly,一个开源的指令跟随 LLM)的投资以及对 MosaicML 的重大收购,Databricks 在 GenAI 领域巩固了其领导地位。Databricks 继续强调他们的 Lakehouse 是 GenAI 初创企业训练和部署自己的人工智能模型的最佳方式,以成本效益的方式利用自己的专有数据,而不受大型科技公司的束缚。
04展望未来,我们可以期待什么呢?
尽管生成式人工智能的热潮已经持续了 8 个多月,但过去一周明确表明,Snowflake 和 Databricks 正在展开竞争,争夺这个领域的心智和市场份额。那么,我们可以对这种加剧的竞争有哪些期待?
1.收购将继续进行→ Snowflake 和 Databricks 都相对有良好的生态位来继续收购与其整体战略相辅相成的小公司。Snowflake 在其资产负债表上拥有约 40 亿美元的现金,而 Databricks 则拥有可用于交易的高估值。同时,数百家 AI 和数据工具初创企业渴望在干旱的 IPO 市场找到出口。我们不认为 Neeva 和 MosaicML 会是这些巨头最后一次收购,市场将出现整合。
2.客户将受益→ 在 Snowflake 和 Databricks 之间逐渐升级的竞争中,最明显的赢家应该是他们的客户。这两家巨头正在快速为他们的平台添加新颖的产品和服务,构建 “一站式商店”,供客户构建数据应用程序并利用 LLMs。这种平台增强将有助于民主化访问人工智能,并让数据科学家、数据工程师和人工智能从业者能够更有意义地进行合作。
3.Azure和AWS将赚取更多的利润→ 随着 Snowflake 和 Databricks 继续在 AI 市场上进一步扩张,它们将需要大量的计算能力,主要由 Azure 和 AWS 提供。数据工程师 Anant Packidurali 敏锐地观察到这一点。与 Nvidia 在 AI 中受益一样,为 Snowflake 和 Databricks 的计算需求提供基础设施的超大规模云服务提供商无论谁在 AI 竞争中获胜,都将获得利益。
随着企业对数据的依赖程度越来越高,以支持其生成式人工智能战略,我们相信 Snowflake 和 Databricks 都处于良好的位置,可以利用这一代的转变。尽管它们来自价值链的不同部分,并且它们的关系在过去十年的发展中发生了变化,但它们现在正处于一场奖励巨大的竞赛中。
本文作者: Vivek Sabrina,来源:硅兔赛跑,原文标题:《百亿美金的平台扳手腕,云数据的生成式 AI 之争》