半年估值翻番达62亿美元:大数据初创公司Databricks再获4亿融资

2019 年 10 月 23 日

半年估值翻番达62亿美元:大数据初创公司Databricks再获4亿融资

美国时间10月22日凌晨,由 Apache Spark 创始成员成立的大数据初创公司 Databricks 宣布完成4亿美元F轮融资,本轮融资由美国私人风投公司 Andreessen Horowitz 领投,微软、Alkeon Capital Management、BlackRock等跟投。本轮融资后,Databricks最新估值高达62亿美元,与今年2月份完成E轮融资时的估值相比已经翻了不止一倍!


除了大数据领域赫赫有名的开源项目Spark,Databricks在2018年6月、2019年4月先后又开源了全流程机器学习平台MLflow和存储层Delta Lake,均在业内引起热烈反响。在过去一年中,Databricks的年度经常性收入(ARR)增长了2.5倍以上,在本轮融资前,Databricks刚刚宣布其2019年第三季度营收达到2亿美元,而四年前他们几乎还没有任何收入。


Market Research Future 的一份报告指出,到 2023 年,大数据分析市场规模将达到 2750 亿美元。与此同时,Gartner 最近预测,到 2022 年,人工智能衍生的业务收入将达到 3.9 万亿美元。面对这么大一块蛋糕,难怪投资人纷纷在大数据分析市场投下重金。据报道,数据分析服务提供商 Fractal Analytics 在一月份筹集到了2亿美元;在那之后不久,端到端数据运营平台提供商 Unravel 又获得了3500万美元的 C 轮融资;业务分析初创公司 Sisense 则在去年 9 月筹集了8000万美元,以扩大产品范围。同样在今年 6 月,谷歌豪掷 26 亿美元收购数据分析公司 Looker,成为谷歌近五年最大手笔的一次收购。


外媒 VentureBeat 这样评价Databricks 的这次融资:“自 2013 年创立以来,Databricks 就一直不愁吸引不到客户。但这周可能会将该公司不断向市场支配地位进军之势推向高潮。”


宣布融资消息的同时,Databricks 还宣布聘请 Dave Conte 为公司首席财务官,Dave Conte 曾担任 Splunk 首席财务官长达八年,未来他将领导 Databricks 的所有财务和运营职能,并直接向 CEO Ali Ghodsi 汇报。


现在,Databricks的客户包括Hotels.com、Viacom、HP、壳牌能源、Expedia,以及来自广告、技术、能源、政府、金融服务、医疗保健、游戏、生命科学、媒体和零售等领域的众多企业。Ghodsi 表示,目前总共有超过 5000 个组织的数据团队正在使用 Databricks 的数据分析平台,这相当于 2019 年初 Databricks 公布的组织数量(2000 个)的两倍以上。


“ (我们)是有史以来增长最快的企业级软件云厂商之一。我们在海量数据处理、机器学习、开源和向云端迁移的赌注都在市场上发挥了巨大作用,并为我们带来了海量且快速增长的全球客户需求。” Ghodsi 补充道。


本轮融资将用于帮助公司扩大研发规模并继续进行快速的全球扩张。具体来说,Databricks 将:


  • 在未来三年内,向其最近在阿姆斯特丹成立的欧洲研发中心投资1亿欧元。据称,该研发中心在过去两年中已经增长了3倍。

  • 建立专门的工程团队,以推进其最近推出的多项开源项目的技术研发,这些项目主要用于数据管理和机器学习,包括:Delta Lake、MLflow和Koalas。

  • 推动和加速公司在全球的业务扩张,包括欧洲、中东、非洲、亚太地区和拉丁美洲。


本轮融资领投方 Andreessen Horowitz 的联合创始人兼总合伙人 Ben Horowitz 表示:“没有其他公司像 Databricks 一样如此成功地将开源软件商业化。我们都见证了 Apache Spark 作为大数据处理标准的强势发展。毫不意外,我们将继续看到该团队在开源上做出更多创新,包括 Delta Lake、MLflow 和 Koalas。”


关于 Databricks


Databricks 由 Apache Spark 的创始成员创立,而 Apache Spark 是由加州大学伯克利分校 AMPLab 基于 Scala 开发的一个开源分布式通用集群计算框架,从 2014 年左右开始得到广泛关注,经过几年发展逐渐成为大数据处理的事实标准。虽然 Spark 仍然是 Databricks 的一个关键产品,但现在只是 Databricks 所做的众多事情中的一小部分。如今 Databricks 已将重点转向机器学习。


开源 MLflow


MLflow是一个能够覆盖机器学习全流程(从数据准备到模型训练到最终部署)的开源新平台,旨在为数据科学家构建、测试和部署机器学习模型的复杂过程做一些简化工作。有了 MLflow,数据科学家就可以在本地(笔记本电脑)或远程(云端)跟踪和共享机器学习实验、跨框架打包和共享模型,并几乎可以在任何地方部署模型。


作为一家大数据解决方案公司,Databricks 与数百家使用机器学习的公司合作,所以能够清楚地了解他们的痛点,比如工具太过复杂、难以跟踪实验、难以重现结果、难以部署模型。由于这些挑战的存在,机器学习开发必须变得与传统软件开发一样强大、可预测和普及。为此,很多企业已经开始构建内部机器学习平台来管理机器学习生命周期。例如,Facebook、谷歌和优步分别构建了 FBLearner Flow、TFX 和 Michelangelo 来进行数据准备、模型训练和部署。但这些内部平台存在一定的局限性:典型的机器学习平台只支持一小部分内置算法或单个机器学习库,并且被绑定在公司内部的基础设施上。用户无法轻易地使用新的机器学习库,或与社区分享他们的工作成果。


Databricks 认为应该使用一种更好的方式来管理机器学习生命周期,于是他们推出了 MLflow。MLflow 主要包含了三个组件:



跟踪组件支持记录和查询实验数据,如评估度量指标和参数;项目组件提供可重复运行的简单包装格式;而模型组件则提供用于管理和部署模型的工具。


自一年前发布第一个版本以来,MLflow 已经被数千个组织所采用。它被用于管理机器学习工作负载,一些服务平台(如 Databricks)还提供了 MLflow 服务。MLflow 社区已经有 100 多名贡献者,MLflow PyPI 包的下载频率已接近每月 60 万次。MLflow 1.0 已于今年 6 月正式发布,这一版本不仅标志着 API 的成熟和稳定,还增加了很多新特性和改进。


开源 Delta Lake


Delta Lake 由 Databricks 在今年年初开源,该项目旨在与社区共同打造一个开放标准,以管理数据湖中的大量数据,并不断提高数据湖的可靠性、质量和性能。Delta Lake为 Apache Spark 和其他大数据引擎提供可伸缩的 ACID 事务,让用户可以基于 HDFS 和云存储构建可靠的数据湖。此外,Delta Lake 还提供了内置的数据版本控制,可以方便地回滚以及重新生成报告。目前 Delta Lake 已经被成千上万的组织采用,包括 Intel、阿里巴巴、Booz Allen Hamilton 都是其开源生态一员。


近日,在荷兰阿姆斯特丹举行的 Spark+AI 欧洲峰会上,DataBricks 和 Linux 基金会联合宣布,开源项目 Delta Lake 正式成为 Linux 基金会的托管项目。



Delta Lake 提供的主要功能包括:


  • ACID 事务:Delta Lake 提供多个写操作之间的 ACID 事务。每个写操作都是一个事务,事务日志中记录的写操作有一个串行顺序。事务日志会跟踪文件级的写操作,并使用乐观并发控制,这非常适合数据湖,因为尝试修改相同文件的多个写操作并不经常发生。在存在冲突的场景中,Delta Lake 会抛出一个并发修改异常,以便用户处理它们并重试它们的作业。Delta Lake 还提供了强大的序列化隔离级别,允许工程师不断地对目录或表进行写操作,而用户可以不断地从相同的目录或表中读取数据。读取者将看到读操作开始时存在的最新快照。

  • 模式管理:Delta Lake 会自动验证正在写入的 DataFrame 模式是否与表的模式兼容。表中存在但 DataFrame 中不存在的列会被设置为 null。如果 DataFrame 中有额外的列在表中不存在,那么该操作将抛出异常。Delta Lake 具有可以显式添加新列的 DDL 和自动更新模式的能力。

  • 可伸缩的元数据处理:Delta Lake 将表或目录的元数据信息存储在事务日志中,而不是存储在元存储(metastore)中。这使得 Delta Lake 能够在固定的时间内列出大型目录中的文件,并且在读取数据时非常高效。

  • 数据版本控制和时间旅行:Delta Lake 允许用户读取表或目录先前的快照。当文件在写期间被修改时,Delta Lake 将创建文件的新版本并保存旧版本。当用户希望读取表或目录的旧版本时,他们可以向 Apache Spark 的读操作 API 提供一个时间戳或版本号,Delta Lake 根据事务日志中的信息构建该时间戳或版本的完整快照。这使得用户可以重新进行试验并生成报告,如果需要,还可以将表还原为旧版本。

  • 统一的批处理和流接收(streaming sink):除了批处理写之外,Delta Lake 还可以使用 Apache Spark 的结构化流作为高效的流接收。再结合 ACID 事务和可伸缩的元数据处理,高效的流接收现在支持许多接近实时的分析用例,而且无需维护复杂的流和批处理管道。

  • 记录更新和删除(即将到来):Delta Lake 将支持合并、更新和删除 DML 命令。这使得工程师可以轻松地维护和删除数据湖中的记录,并简化他们的变更数据捕获和 GDPR 用例。由于 Delta Lake 在文件粒度上跟踪和修改数据,因此,比读取和覆写整个分区或表要高效得多。

  • 数据期望(即将到来):Delta Lake 还将支持一个新的 API,用于设置表或目录的数据期望。工程师将能够通过指定布尔条件及调整严重程度来处理数据期望。当 Apache Spark 作业写入表或目录时,Delta Lake 将自动验证记录,当出现违规时,它将根据所预置的严重程度处理记录。


2019 年 10 月 23 日 09:264011

评论

发布
暂无评论
发现更多内容

区块链落地应用开发- 珠宝溯源,不当“冤大头”

13828808769

区块链技术 区块链落地开发 珠宝溯源

智慧平安社区平台建设app,公安大数据分析系统开发

WX13823153201

智慧平安社区平台建设

面试必问系列,源码解析多线程绝对不容忽视得问题:线程活性故障

小Q

Java 学习 架构 面试 多线程

懒人神器——新手必备的图片后期处理软件

懒得勤快

图片后期 修图 滤镜 ps

第四周 系统架构 学习总结

feiyun123

极客大学架构师训练营

Swift函数调用逆向分析

ios swift

第四周 系统架构 作业 「架构师训练营 3 期」

feiyun123

极客大学架构师训练营

面试阿里被质问:ConcurrentHashMap线程安全吗

Java架构师迁哥

Java渣渣外包开发3年,4面终揽下美团面试官,含泪拿到22koffer

比伯

Java 编程 程序员 架构 面试

智能合约Dapp系统开发,区块链智能合约技术

薇電13242772558

区块链 智能合约

一个典型的大型互联网应用系统使用了哪些技术方案和手段,主要解决什么问题?

我们新四军不拿群众一针一线

海量小文件存储系统HOS探索与实践

Galaxy数据平台

OSS 对象存储 HBase 大数据平台 GEEDGE NETWORKS

某程序员刷完这两份pdf轻松拿下了蚂蚁金服、头条、小米等大厂的offer。

Java成神之路

Java 程序员 架构 面试 编程语言

架构训练营-week13-作业1

于成龙

架构训练营

2020年文章合集

Rayjun

测开之数据类型· 第4篇《迭代器、生成器》

清菡

测试开发

字节首发Redis笔记,基础+原理+应用+源码+拓展五大核心模块

Java架构追梦

Java redis 编程 架构 面试

如何透彻理解 Redis 核心原理?怎样才能形成 Redis 系统观?

Java架构师迁哥

天猫Java研发岗面经(技术三面):基础+算法+MySQL+Redis+秒杀架构

Java成神之路

Java 程序员 架构 面试 编程语言

架构训练营-week13-总结

于成龙

03-week4-homework

J

极客大学架构师训练营

光知道SpringBoot,不用thymeleaf就太不对了

小Q

Java 学习 编程 面试 Spring Boot

2020年11月最新分享,我凭借这份pdf拿下了蚂蚁金服、字节跳动等大厂的offer

Java成神之路

Java 程序员 架构 面试 编程语言

炸锅了!国内首本通用源码阅读指定书籍:MyBatis源码详解

周老师

Java 编程 程序员 架构 面经

架构师训练营第 13 周作业

netspecial

极客大学架构师训练营

互联网架构总结

J

极客大学架构师训练营

DeFi流动性挖矿系统APP软件开发

开發I852946OIIO

系统开发

字节三面远程,Java+Redis+网络+数据库+算法,轻松反杀面试官?

Java成神之路

Java 程序员 架构 面试 编程语言

7年开发的老油条,你不跳槽怎么涨薪?看我怎么拿到阿里P7offer的

Java成神之路

Java 程序员 架构 面试 编程语言

阿里9年老开发终于总结出微服务架构设计模式PDF了

小Q

Java 学习 编程 架构 面试

架构师训练营 -week13-总结

大刘

极客大学架构师训练营

半年估值翻番达62亿美元:大数据初创公司Databricks再获4亿融资-InfoQ