美国时间10月22日凌晨，由 Apache Spark 创始成员成立的大数据初创公司 Databricks 宣布完成4亿美元F轮融资，本轮融资由美国私人风投公司 Andreessen Horowitz 领投，微软、Alkeon Capital Management、BlackRock等跟投。本轮融资后，Databricks最新估值高达62亿美元，与今年2月份完成E轮融资时的估值相比已经翻了不止一倍！

除了大数据领域赫赫有名的开源项目Spark，Databricks在2018年6月、2019年4月先后又开源了全流程机器学习平台MLflow和存储层Delta Lake，均在业内引起热烈反响。在过去一年中，Databricks的年度经常性收入（ARR）增长了2.5倍以上，在本轮融资前，Databricks刚刚宣布其2019年第三季度营收达到2亿美元，而四年前他们几乎还没有任何收入。

Market Research Future的一份报告指出，到2023年，大数据分析市场规模将达到2750亿美元。与此同时，Gartner最近预测，到2022年，人工智能衍生的业务收入将达到3.9万亿美元。面对这么大一块蛋糕，难怪投资人纷纷在大数据分析市场投下重金。据报道，数据分析服务提供商Fractal Analytics 在一月份筹集到了2亿美元；在那之后不久，端到端数据运营平台提供商Unravel又获得了3500万美元的C轮融资；业务分析初创公司Sisense则在去年9月筹集了8000万美元，以扩大产品范围。同样在今年6月，谷歌豪掷26亿美元收购数据分析公司Looker，成为谷歌近五年最大手笔的一次收购。

外媒VentureBeat这样评价Databricks的这次融资：“自2013年创立以来，Databricks就一直不愁吸引不到客户。但这周可能会将该公司不断向市场支配地位进军之势推向高潮。”

宣布融资消息的同时，Databricks还宣布聘请Dave Conte为公司首席财务官，Dave Conte曾担任Splunk首席财务官长达八年，未来他将领导Databricks的所有财务和运营职能，并直接向CEO Ali Ghodsi汇报。

现在，Databricks的客户包括Hotels.com、Viacom、HP、壳牌能源、Expedia，以及来自广告、技术、能源、政府、金融服务、医疗保健、游戏、生命科学、媒体和零售等领域的众多企业。Ghodsi表示，目前总共有超过5000个组织的数据团队正在使用Databricks的数据分析平台，这相当于2019年初Databricks公布的组织数量（2000个）的两倍以上。

“ （我们）是有史以来增长最快的企业级软件云厂商之一。我们在海量数据处理、机器学习、开源和向云端迁移的赌注都在市场上发挥了巨大作用，并为我们带来了海量且快速增长的全球客户需求。” Ghodsi补充道。

本轮融资将用于帮助公司扩大研发规模并继续进行快速的全球扩张。具体来说，Databricks将：

在未来三年内，向其最近在阿姆斯特丹成立的欧洲研发中心投资1亿欧元。据称，该研发中心在过去两年中已经增长了3倍。
建立专门的工程团队，以推进其最近推出的多项开源项目的技术研发，这些项目主要用于数据管理和机器学习，包括：Delta Lake、MLflow和Koalas。
推动和加速公司在全球的业务扩张，包括欧洲、中东、非洲、亚太地区和拉丁美洲。

本轮融资领投方Andreessen Horowitz的联合创始人兼总合伙人Ben Horowitz表示：“没有其他公司像Databricks一样如此成功地将开源软件商业化。我们都见证了Apache Spark作为大数据处理标准的强势发展。毫不意外，我们将继续看到该团队在开源上做出更多创新，包括Delta Lake、MLflow和Koalas。”

关于Databricks

Databricks由Apache Spark的创始成员创立，而Apache Spark是由加州大学伯克利分校AMPLab基于Scala开发的一个开源分布式通用集群计算框架，从 2014 年左右开始得到广泛关注，经过几年发展逐渐成为大数据处理的事实标准。虽然 Spark 仍然是 Databricks 的一个关键产品，但现在只是 Databricks 所做的众多事情中的一小部分。如今Databricks 已将重点转向机器学习。

开源 MLflow

MLflow是一个能够覆盖机器学习全流程（从数据准备到模型训练到最终部署）的开源新平台，旨在为数据科学家构建、测试和部署机器学习模型的复杂过程做一些简化工作。有了 MLflow，数据科学家就可以在本地（笔记本电脑）或远程（云端）跟踪和共享机器学习实验、跨框架打包和共享模型，并几乎可以在任何地方部署模型。

作为一家大数据解决方案公司，Databricks 与数百家使用机器学习的公司合作，所以能够清楚地了解他们的痛点，比如工具太过复杂、难以跟踪实验、难以重现结果、难以部署模型。由于这些挑战的存在，机器学习开发必须变得与传统软件开发一样强大、可预测和普及。为此，很多企业已经开始构建内部机器学习平台来管理机器学习生命周期。例如，Facebook、谷歌和优步分别构建了 FBLearner Flow、TFX 和 Michelangelo 来进行数据准备、模型训练和部署。但这些内部平台存在一定的局限性：典型的机器学习平台只支持一小部分内置算法或单个机器学习库，并且被绑定在公司内部的基础设施上。用户无法轻易地使用新的机器学习库，或与社区分享他们的工作成果。

Databricks 认为应该使用一种更好的方式来管理机器学习生命周期，于是他们推出了 MLflow。MLflow主要包含了三个组件：

跟踪组件支持记录和查询实验数据，如评估度量指标和参数；项目组件提供可重复运行的简单包装格式；而模型组件则提供用于管理和部署模型的工具。

自一年前发布第一个版本以来，MLflow 已经被数千个组织所采用。它被用于管理机器学习工作负载，一些服务平台（如 Databricks）还提供了 MLflow 服务。MLflow 社区已经有 100 多名贡献者，MLflow PyPI 包的下载频率已接近每月 60 万次。MLflow 1.0已于今年6月正式发布，这一版本不仅标志着 API 的成熟和稳定，还增加了很多新特性和改进。

开源Delta Lake

Delta Lake 由 Databricks 在今年年初开源，该项目旨在与社区共同打造一个开放标准，以管理数据湖中的大量数据，并不断提高数据湖的可靠性、质量和性能。Delta Lake为 Apache Spark 和其他大数据引擎提供可伸缩的 ACID 事务，让用户可以基于 HDFS 和云存储构建可靠的数据湖。此外，Delta Lake 还提供了内置的数据版本控制，可以方便地回滚以及重新生成报告。目前 Delta Lake 已经被成千上万的组织采用，包括 Intel、阿里巴巴、Booz Allen Hamilton 都是其开源生态一员。

近日，在荷兰阿姆斯特丹举行的 Spark+AI 欧洲峰会上，DataBricks 和 Linux 基金会联合宣布，开源项目 Delta Lake 正式成为 Linux 基金会的托管项目。

Delta Lake 提供的主要功能包括：

ACID 事务：Delta Lake 提供多个写操作之间的 ACID 事务。每个写操作都是一个事务，事务日志中记录的写操作有一个串行顺序。事务日志会跟踪文件级的写操作，并使用乐观并发控制，这非常适合数据湖，因为尝试修改相同文件的多个写操作并不经常发生。在存在冲突的场景中，Delta Lake 会抛出一个并发修改异常，以便用户处理它们并重试它们的作业。Delta Lake 还提供了强大的序列化隔离级别，允许工程师不断地对目录或表进行写操作，而用户可以不断地从相同的目录或表中读取数据。读取者将看到读操作开始时存在的最新快照。
模式管理：Delta Lake 会自动验证正在写入的 DataFrame 模式是否与表的模式兼容。表中存在但 DataFrame 中不存在的列会被设置为 null。如果 DataFrame 中有额外的列在表中不存在，那么该操作将抛出异常。Delta Lake 具有可以显式添加新列的 DDL 和自动更新模式的能力。
可伸缩的元数据处理：Delta Lake 将表或目录的元数据信息存储在事务日志中，而不是存储在元存储（metastore）中。这使得 Delta Lake 能够在固定的时间内列出大型目录中的文件，并且在读取数据时非常高效。
数据版本控制和时间旅行：Delta Lake 允许用户读取表或目录先前的快照。当文件在写期间被修改时，Delta Lake 将创建文件的新版本并保存旧版本。当用户希望读取表或目录的旧版本时，他们可以向 Apache Spark 的读操作 API 提供一个时间戳或版本号，Delta Lake 根据事务日志中的信息构建该时间戳或版本的完整快照。这使得用户可以重新进行试验并生成报告，如果需要，还可以将表还原为旧版本。
统一的批处理和流接收（streaming sink）：除了批处理写之外，Delta Lake 还可以使用 Apache Spark 的结构化流作为高效的流接收。再结合 ACID 事务和可伸缩的元数据处理，高效的流接收现在支持许多接近实时的分析用例，而且无需维护复杂的流和批处理管道。
记录更新和删除（即将到来）：Delta Lake 将支持合并、更新和删除 DML 命令。这使得工程师可以轻松地维护和删除数据湖中的记录，并简化他们的变更数据捕获和 GDPR 用例。由于 Delta Lake 在文件粒度上跟踪和修改数据，因此，比读取和覆写整个分区或表要高效得多。
数据期望（即将到来）：Delta Lake 还将支持一个新的 API，用于设置表或目录的数据期望。工程师将能够通过指定布尔条件及调整严重程度来处理数据期望。当 Apache Spark 作业写入表或目录时，Delta Lake 将自动验证记录，当出现违规时，它将根据所预置的严重程度处理记录。

创作场景

半年估值翻番达 62 亿美元：大数据初创公司 Databricks 再获 4 亿融资