写点什么

半年估值翻番达 62 亿美元:大数据初创公司 Databricks 再获 4 亿融资

  • 2019-10-23
  • 本文字数:3606 字

    阅读完需:约 12 分钟

半年估值翻番达62亿美元:大数据初创公司Databricks再获4亿融资

美国时间 10 月 22 日凌晨,由 Apache Spark 创始成员成立的大数据初创公司 Databricks 宣布完成 4 亿美元 F 轮融资,本轮融资由美国私人风投公司 Andreessen Horowitz 领投,微软、Alkeon Capital Management、BlackRock 等跟投。本轮融资后,Databricks 最新估值高达 62 亿美元,与今年 2 月份完成 E 轮融资时的估值相比已经翻了不止一倍!


除了大数据领域赫赫有名的开源项目 Spark,Databricks 在 2018 年 6 月、2019 年 4 月先后又开源了全流程机器学习平台 MLflow 和存储层 Delta Lake,均在业内引起热烈反响。在过去一年中,Databricks 的年度经常性收入(ARR)增长了 2.5 倍以上,在本轮融资前,Databricks 刚刚宣布其 2019 年第三季度营收达到 2 亿美元,而四年前他们几乎还没有任何收入。


Market Research Future 的一份报告指出,到 2023 年,大数据分析市场规模将达到 2750 亿美元。与此同时,Gartner 最近预测,到 2022 年,人工智能衍生的业务收入将达到 3.9 万亿美元。面对这么大一块蛋糕,难怪投资人纷纷在大数据分析市场投下重金。据报道,数据分析服务提供商 Fractal Analytics 在一月份筹集到了2亿美元;在那之后不久,端到端数据运营平台提供商 Unravel 又获得了3500万美元的 C 轮融资;业务分析初创公司 Sisense 则在去年 9 月筹集了8000万美元,以扩大产品范围。同样在今年 6 月,谷歌豪掷 26 亿美元收购数据分析公司 Looker,成为谷歌近五年最大手笔的一次收购。


外媒 VentureBeat 这样评价Databricks 的这次融资:“自 2013 年创立以来,Databricks 就一直不愁吸引不到客户。但这周可能会将该公司不断向市场支配地位进军之势推向高潮。”


宣布融资消息的同时,Databricks 还宣布聘请 Dave Conte 为公司首席财务官,Dave Conte 曾担任 Splunk 首席财务官长达八年,未来他将领导 Databricks 的所有财务和运营职能,并直接向 CEO Ali Ghodsi 汇报。


现在,Databricks的客户包括Hotels.com、Viacom、HP、壳牌能源、Expedia,以及来自广告、技术、能源、政府、金融服务、医疗保健、游戏、生命科学、媒体和零售等领域的众多企业。Ghodsi 表示,目前总共有超过 5000 个组织的数据团队正在使用 Databricks 的数据分析平台,这相当于 2019 年初 Databricks 公布的组织数量(2000 个)的两倍以上。


“ (我们)是有史以来增长最快的企业级软件云厂商之一。我们在海量数据处理、机器学习、开源和向云端迁移的赌注都在市场上发挥了巨大作用,并为我们带来了海量且快速增长的全球客户需求。” Ghodsi 补充道。


本轮融资将用于帮助公司扩大研发规模并继续进行快速的全球扩张。具体来说,Databricks 将:


  • 在未来三年内,向其最近在阿姆斯特丹成立的欧洲研发中心投资 1 亿欧元。据称,该研发中心在过去两年中已经增长了 3 倍。

  • 建立专门的工程团队,以推进其最近推出的多项开源项目的技术研发,这些项目主要用于数据管理和机器学习,包括:Delta Lake、MLflow 和 Koalas。

  • 推动和加速公司在全球的业务扩张,包括欧洲、中东、非洲、亚太地区和拉丁美洲。


本轮融资领投方 Andreessen Horowitz 的联合创始人兼总合伙人 Ben Horowitz 表示:“没有其他公司像 Databricks 一样如此成功地将开源软件商业化。我们都见证了 Apache Spark 作为大数据处理标准的强势发展。毫不意外,我们将继续看到该团队在开源上做出更多创新,包括 Delta Lake、MLflow 和 Koalas。”

关于 Databricks

Databricks 由 Apache Spark 的创始成员创立,而 Apache Spark 是由加州大学伯克利分校 AMPLab 基于 Scala 开发的一个开源分布式通用集群计算框架,从 2014 年左右开始得到广泛关注,经过几年发展逐渐成为大数据处理的事实标准。虽然 Spark 仍然是 Databricks 的一个关键产品,但现在只是 Databricks 所做的众多事情中的一小部分。如今 Databricks 已将重点转向机器学习。

开源 MLflow

MLflow是一个能够覆盖机器学习全流程(从数据准备到模型训练到最终部署)的开源新平台,旨在为数据科学家构建、测试和部署机器学习模型的复杂过程做一些简化工作。有了 MLflow,数据科学家就可以在本地(笔记本电脑)或远程(云端)跟踪和共享机器学习实验、跨框架打包和共享模型,并几乎可以在任何地方部署模型。


作为一家大数据解决方案公司,Databricks 与数百家使用机器学习的公司合作,所以能够清楚地了解他们的痛点,比如工具太过复杂、难以跟踪实验、难以重现结果、难以部署模型。由于这些挑战的存在,机器学习开发必须变得与传统软件开发一样强大、可预测和普及。为此,很多企业已经开始构建内部机器学习平台来管理机器学习生命周期。例如,Facebook、谷歌和优步分别构建了 FBLearner Flow、TFX 和 Michelangelo 来进行数据准备、模型训练和部署。但这些内部平台存在一定的局限性:典型的机器学习平台只支持一小部分内置算法或单个机器学习库,并且被绑定在公司内部的基础设施上。用户无法轻易地使用新的机器学习库,或与社区分享他们的工作成果。


Databricks 认为应该使用一种更好的方式来管理机器学习生命周期,于是他们推出了 MLflow。MLflow 主要包含了三个组件:



跟踪组件支持记录和查询实验数据,如评估度量指标和参数;项目组件提供可重复运行的简单包装格式;而模型组件则提供用于管理和部署模型的工具。


自一年前发布第一个版本以来,MLflow 已经被数千个组织所采用。它被用于管理机器学习工作负载,一些服务平台(如 Databricks)还提供了 MLflow 服务。MLflow 社区已经有 100 多名贡献者,MLflow PyPI 包的下载频率已接近每月 60 万次。MLflow 1.0 已于今年 6 月正式发布,这一版本不仅标志着 API 的成熟和稳定,还增加了很多新特性和改进。

开源 Delta Lake

Delta Lake 由 Databricks 在今年年初开源,该项目旨在与社区共同打造一个开放标准,以管理数据湖中的大量数据,并不断提高数据湖的可靠性、质量和性能。Delta Lake为 Apache Spark 和其他大数据引擎提供可伸缩的 ACID 事务,让用户可以基于 HDFS 和云存储构建可靠的数据湖。此外,Delta Lake 还提供了内置的数据版本控制,可以方便地回滚以及重新生成报告。目前 Delta Lake 已经被成千上万的组织采用,包括 Intel、阿里巴巴、Booz Allen Hamilton 都是其开源生态一员。


近日,在荷兰阿姆斯特丹举行的 Spark+AI 欧洲峰会上,DataBricks 和 Linux 基金会联合宣布,开源项目 Delta Lake 正式成为 Linux 基金会的托管项目。



Delta Lake 提供的主要功能包括:


  • ACID 事务:Delta Lake 提供多个写操作之间的 ACID 事务。每个写操作都是一个事务,事务日志中记录的写操作有一个串行顺序。事务日志会跟踪文件级的写操作,并使用乐观并发控制,这非常适合数据湖,因为尝试修改相同文件的多个写操作并不经常发生。在存在冲突的场景中,Delta Lake 会抛出一个并发修改异常,以便用户处理它们并重试它们的作业。Delta Lake 还提供了强大的序列化隔离级别,允许工程师不断地对目录或表进行写操作,而用户可以不断地从相同的目录或表中读取数据。读取者将看到读操作开始时存在的最新快照。

  • 模式管理:Delta Lake 会自动验证正在写入的 DataFrame 模式是否与表的模式兼容。表中存在但 DataFrame 中不存在的列会被设置为 null。如果 DataFrame 中有额外的列在表中不存在,那么该操作将抛出异常。Delta Lake 具有可以显式添加新列的 DDL 和自动更新模式的能力。

  • 可伸缩的元数据处理:Delta Lake 将表或目录的元数据信息存储在事务日志中,而不是存储在元存储(metastore)中。这使得 Delta Lake 能够在固定的时间内列出大型目录中的文件,并且在读取数据时非常高效。

  • 数据版本控制和时间旅行:Delta Lake 允许用户读取表或目录先前的快照。当文件在写期间被修改时,Delta Lake 将创建文件的新版本并保存旧版本。当用户希望读取表或目录的旧版本时,他们可以向 Apache Spark 的读操作 API 提供一个时间戳或版本号,Delta Lake 根据事务日志中的信息构建该时间戳或版本的完整快照。这使得用户可以重新进行试验并生成报告,如果需要,还可以将表还原为旧版本。

  • 统一的批处理和流接收(streaming sink):除了批处理写之外,Delta Lake 还可以使用 Apache Spark 的结构化流作为高效的流接收。再结合 ACID 事务和可伸缩的元数据处理,高效的流接收现在支持许多接近实时的分析用例,而且无需维护复杂的流和批处理管道。

  • 记录更新和删除(即将到来):Delta Lake 将支持合并、更新和删除 DML 命令。这使得工程师可以轻松地维护和删除数据湖中的记录,并简化他们的变更数据捕获和 GDPR 用例。由于 Delta Lake 在文件粒度上跟踪和修改数据,因此,比读取和覆写整个分区或表要高效得多。

  • 数据期望(即将到来):Delta Lake 还将支持一个新的 API,用于设置表或目录的数据期望。工程师将能够通过指定布尔条件及调整严重程度来处理数据期望。当 Apache Spark 作业写入表或目录时,Delta Lake 将自动验证记录,当出现违规时,它将根据所预置的严重程度处理记录。


2019-10-23 09:265764

评论

发布
暂无评论
发现更多内容

从大厂高管到AI创业者,玉伯说“诚实的创业者“才能活下来

田威AI

第八届人文教育与社会科学国际学术会议(ICHESS 2025)

搞科研的小刘

人文社科 学术会议

第七届国际科技创新学术交流大会(IAECST 2025)

搞科研的小刘

学术会议 科创大会

大数据-177 Elasticsearch 聚合实战:指标聚合 + 桶聚合完整用法与 DSL 解析

武子康

Java nosql 大数据 elasticsearch 分布式

CAD如何设置光标旁显示坐标信息

极客天地

CAD绘图区域如何设置显示滚动条

极客天地

CAD的ViewCube如何调整透明度

极客天地

一键批注三维图纸,协作效率直接拉满

在路上

cad CAD看图王

第五届机电一体化、自动化与智能控制国际学术会议(MAIC 2025)

搞科研的小刘

学术会议 机电一体化

从误判到精准:游戏社区 AI 审核的工程化实践

亚马逊云科技 (Amazon Web Services)

人工智能

YashanDB数据库与人工智能的结合前景探讨

数据库砖家

前端UI框架介绍 iView ElementUI ICE

刘大猫

人工智能 云计算 算法 物联网 大模型

读TiDB源码聊设计:浅析HTAP的SQL优化器

泊浮目

HTAP TiDB 源码解读 HTAP数据库 数据库 大数据

第十一届能源资源与环境工程研究进展国际学术会议(ICAESEE 2025)

搞科研的小刘

学术会议 能源环境

你的专属AI 运营官:公众号小助手

六月的雨在InfoQ

智能体 AI Agent 地球online合法外挂 内容玩家

YashanDB数据库与人工智能结合的应用新视角

数据库砖家

CAD怎样修改布局视口边框的线型

极客天地

传统爬虫太耗时?AI一键生成企业级爬虫架构

知识浅谈

AI 爬虫 数据

YashanDB数据库与容器化部署的深度集成实践指南

数据库砖家

CAD状态栏上的功能按钮如何设置显示

极客天地

从0构建深度学习框架——揭秘深度学习框架的黑箱

方品

AI gpu PyTorch 深度学习‘’ gpu 算力

2025中国人工智能大会,藏着AI的行动派时刻

脑极体

AI

第二届机器学习、计算智能与模式识别国际学术会议(MLCIPR 2025)

搞科研的小刘

学术会议

释放数字生产力:浩辰CAD看图王适配HarmonyOS 6 系统

在路上

CAD看图王

YashanDB数据库与区块链技术的融合探索

数据库砖家

YashanDB数据库与数据湖的集成应用指南

数据库砖家

CAD如何自定义快捷特性显示内容

极客天地

MIAOYUN | 每周AI新鲜事儿(11.28-12.05)

MIAOYUN

人工智能 AI AI工具 AI 图像生成 AI 大模型

私有云搭建建设方案,云化建设,政务云建设

金陵老街

公有云 私有云 云化建设

快兑科技亮相2025中国企业家博鳌论坛分论坛-创新探索 生态共筑

科技经济

浪潮报表平台:构建集团财务管控的数字中枢

inBuilder低代码平台

数据中台 数据管理 报表平台 数据决策

半年估值翻番达62亿美元:大数据初创公司Databricks再获4亿融资_语言 & 开发_蔡芳芳_InfoQ精选文章