阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

半年估值翻番达 62 亿美元:大数据初创公司 Databricks 再获 4 亿融资

  • 2019-10-23
  • 本文字数:3606 字

    阅读完需:约 12 分钟

半年估值翻番达62亿美元:大数据初创公司Databricks再获4亿融资

美国时间 10 月 22 日凌晨,由 Apache Spark 创始成员成立的大数据初创公司 Databricks 宣布完成 4 亿美元 F 轮融资,本轮融资由美国私人风投公司 Andreessen Horowitz 领投,微软、Alkeon Capital Management、BlackRock 等跟投。本轮融资后,Databricks 最新估值高达 62 亿美元,与今年 2 月份完成 E 轮融资时的估值相比已经翻了不止一倍!


除了大数据领域赫赫有名的开源项目 Spark,Databricks 在 2018 年 6 月、2019 年 4 月先后又开源了全流程机器学习平台 MLflow 和存储层 Delta Lake,均在业内引起热烈反响。在过去一年中,Databricks 的年度经常性收入(ARR)增长了 2.5 倍以上,在本轮融资前,Databricks 刚刚宣布其 2019 年第三季度营收达到 2 亿美元,而四年前他们几乎还没有任何收入。


Market Research Future 的一份报告指出,到 2023 年,大数据分析市场规模将达到 2750 亿美元。与此同时,Gartner 最近预测,到 2022 年,人工智能衍生的业务收入将达到 3.9 万亿美元。面对这么大一块蛋糕,难怪投资人纷纷在大数据分析市场投下重金。据报道,数据分析服务提供商 Fractal Analytics 在一月份筹集到了2亿美元;在那之后不久,端到端数据运营平台提供商 Unravel 又获得了3500万美元的 C 轮融资;业务分析初创公司 Sisense 则在去年 9 月筹集了8000万美元,以扩大产品范围。同样在今年 6 月,谷歌豪掷 26 亿美元收购数据分析公司 Looker,成为谷歌近五年最大手笔的一次收购。


外媒 VentureBeat 这样评价Databricks 的这次融资:“自 2013 年创立以来,Databricks 就一直不愁吸引不到客户。但这周可能会将该公司不断向市场支配地位进军之势推向高潮。”


宣布融资消息的同时,Databricks 还宣布聘请 Dave Conte 为公司首席财务官,Dave Conte 曾担任 Splunk 首席财务官长达八年,未来他将领导 Databricks 的所有财务和运营职能,并直接向 CEO Ali Ghodsi 汇报。


现在,Databricks的客户包括Hotels.com、Viacom、HP、壳牌能源、Expedia,以及来自广告、技术、能源、政府、金融服务、医疗保健、游戏、生命科学、媒体和零售等领域的众多企业。Ghodsi 表示,目前总共有超过 5000 个组织的数据团队正在使用 Databricks 的数据分析平台,这相当于 2019 年初 Databricks 公布的组织数量(2000 个)的两倍以上。


“ (我们)是有史以来增长最快的企业级软件云厂商之一。我们在海量数据处理、机器学习、开源和向云端迁移的赌注都在市场上发挥了巨大作用,并为我们带来了海量且快速增长的全球客户需求。” Ghodsi 补充道。


本轮融资将用于帮助公司扩大研发规模并继续进行快速的全球扩张。具体来说,Databricks 将:


  • 在未来三年内,向其最近在阿姆斯特丹成立的欧洲研发中心投资 1 亿欧元。据称,该研发中心在过去两年中已经增长了 3 倍。

  • 建立专门的工程团队,以推进其最近推出的多项开源项目的技术研发,这些项目主要用于数据管理和机器学习,包括:Delta Lake、MLflow 和 Koalas。

  • 推动和加速公司在全球的业务扩张,包括欧洲、中东、非洲、亚太地区和拉丁美洲。


本轮融资领投方 Andreessen Horowitz 的联合创始人兼总合伙人 Ben Horowitz 表示:“没有其他公司像 Databricks 一样如此成功地将开源软件商业化。我们都见证了 Apache Spark 作为大数据处理标准的强势发展。毫不意外,我们将继续看到该团队在开源上做出更多创新,包括 Delta Lake、MLflow 和 Koalas。”

关于 Databricks

Databricks 由 Apache Spark 的创始成员创立,而 Apache Spark 是由加州大学伯克利分校 AMPLab 基于 Scala 开发的一个开源分布式通用集群计算框架,从 2014 年左右开始得到广泛关注,经过几年发展逐渐成为大数据处理的事实标准。虽然 Spark 仍然是 Databricks 的一个关键产品,但现在只是 Databricks 所做的众多事情中的一小部分。如今 Databricks 已将重点转向机器学习。

开源 MLflow

MLflow是一个能够覆盖机器学习全流程(从数据准备到模型训练到最终部署)的开源新平台,旨在为数据科学家构建、测试和部署机器学习模型的复杂过程做一些简化工作。有了 MLflow,数据科学家就可以在本地(笔记本电脑)或远程(云端)跟踪和共享机器学习实验、跨框架打包和共享模型,并几乎可以在任何地方部署模型。


作为一家大数据解决方案公司,Databricks 与数百家使用机器学习的公司合作,所以能够清楚地了解他们的痛点,比如工具太过复杂、难以跟踪实验、难以重现结果、难以部署模型。由于这些挑战的存在,机器学习开发必须变得与传统软件开发一样强大、可预测和普及。为此,很多企业已经开始构建内部机器学习平台来管理机器学习生命周期。例如,Facebook、谷歌和优步分别构建了 FBLearner Flow、TFX 和 Michelangelo 来进行数据准备、模型训练和部署。但这些内部平台存在一定的局限性:典型的机器学习平台只支持一小部分内置算法或单个机器学习库,并且被绑定在公司内部的基础设施上。用户无法轻易地使用新的机器学习库,或与社区分享他们的工作成果。


Databricks 认为应该使用一种更好的方式来管理机器学习生命周期,于是他们推出了 MLflow。MLflow 主要包含了三个组件:



跟踪组件支持记录和查询实验数据,如评估度量指标和参数;项目组件提供可重复运行的简单包装格式;而模型组件则提供用于管理和部署模型的工具。


自一年前发布第一个版本以来,MLflow 已经被数千个组织所采用。它被用于管理机器学习工作负载,一些服务平台(如 Databricks)还提供了 MLflow 服务。MLflow 社区已经有 100 多名贡献者,MLflow PyPI 包的下载频率已接近每月 60 万次。MLflow 1.0 已于今年 6 月正式发布,这一版本不仅标志着 API 的成熟和稳定,还增加了很多新特性和改进。

开源 Delta Lake

Delta Lake 由 Databricks 在今年年初开源,该项目旨在与社区共同打造一个开放标准,以管理数据湖中的大量数据,并不断提高数据湖的可靠性、质量和性能。Delta Lake为 Apache Spark 和其他大数据引擎提供可伸缩的 ACID 事务,让用户可以基于 HDFS 和云存储构建可靠的数据湖。此外,Delta Lake 还提供了内置的数据版本控制,可以方便地回滚以及重新生成报告。目前 Delta Lake 已经被成千上万的组织采用,包括 Intel、阿里巴巴、Booz Allen Hamilton 都是其开源生态一员。


近日,在荷兰阿姆斯特丹举行的 Spark+AI 欧洲峰会上,DataBricks 和 Linux 基金会联合宣布,开源项目 Delta Lake 正式成为 Linux 基金会的托管项目。



Delta Lake 提供的主要功能包括:


  • ACID 事务:Delta Lake 提供多个写操作之间的 ACID 事务。每个写操作都是一个事务,事务日志中记录的写操作有一个串行顺序。事务日志会跟踪文件级的写操作,并使用乐观并发控制,这非常适合数据湖,因为尝试修改相同文件的多个写操作并不经常发生。在存在冲突的场景中,Delta Lake 会抛出一个并发修改异常,以便用户处理它们并重试它们的作业。Delta Lake 还提供了强大的序列化隔离级别,允许工程师不断地对目录或表进行写操作,而用户可以不断地从相同的目录或表中读取数据。读取者将看到读操作开始时存在的最新快照。

  • 模式管理:Delta Lake 会自动验证正在写入的 DataFrame 模式是否与表的模式兼容。表中存在但 DataFrame 中不存在的列会被设置为 null。如果 DataFrame 中有额外的列在表中不存在,那么该操作将抛出异常。Delta Lake 具有可以显式添加新列的 DDL 和自动更新模式的能力。

  • 可伸缩的元数据处理:Delta Lake 将表或目录的元数据信息存储在事务日志中,而不是存储在元存储(metastore)中。这使得 Delta Lake 能够在固定的时间内列出大型目录中的文件,并且在读取数据时非常高效。

  • 数据版本控制和时间旅行:Delta Lake 允许用户读取表或目录先前的快照。当文件在写期间被修改时,Delta Lake 将创建文件的新版本并保存旧版本。当用户希望读取表或目录的旧版本时,他们可以向 Apache Spark 的读操作 API 提供一个时间戳或版本号,Delta Lake 根据事务日志中的信息构建该时间戳或版本的完整快照。这使得用户可以重新进行试验并生成报告,如果需要,还可以将表还原为旧版本。

  • 统一的批处理和流接收(streaming sink):除了批处理写之外,Delta Lake 还可以使用 Apache Spark 的结构化流作为高效的流接收。再结合 ACID 事务和可伸缩的元数据处理,高效的流接收现在支持许多接近实时的分析用例,而且无需维护复杂的流和批处理管道。

  • 记录更新和删除(即将到来):Delta Lake 将支持合并、更新和删除 DML 命令。这使得工程师可以轻松地维护和删除数据湖中的记录,并简化他们的变更数据捕获和 GDPR 用例。由于 Delta Lake 在文件粒度上跟踪和修改数据,因此,比读取和覆写整个分区或表要高效得多。

  • 数据期望(即将到来):Delta Lake 还将支持一个新的 API,用于设置表或目录的数据期望。工程师将能够通过指定布尔条件及调整严重程度来处理数据期望。当 Apache Spark 作业写入表或目录时,Delta Lake 将自动验证记录,当出现违规时,它将根据所预置的严重程度处理记录。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-10-23 09:264803

评论

发布
暂无评论
发现更多内容

程序员的眼界真的不要,也不能只局限于技术

非著名程序员

极客时间 程序员 提升认知

【week06】总结

chengjing

图解:有向环、拓扑排序与Kosaraju算法

淡蓝色

Java 数据结构 算法

CAP 原理

Z冰红茶

我学会了用Python预测股票价格

博文视点Broadview

Python 读书笔记 算法 数据分析

架构师训练营(6周)

Hanson

天猫小店、京东小店的问题分析

石云升

价值网络 新零售 天猫小店

NOSQL - 第六周作业

孙志平

Doris 临时失效 UML 时序图(训练营第六周)

看山是山

Doris

static关键字真能提高Bean的优先级吗?答:真能

YourBatman

spring springboot SpringCloud 极客大学架构师训练营 Spring Bean

学会使用Vue JSX,一车老干妈都是你的

前端有的玩

Java Vue 大前端 技巧 React

【week06】作业

chengjing

架构师训练营第六周

大丁💸💵💴💶🚀🐟

Apache Flink 是什么?

Apache Flink

flink

week6 学习总结 Nosql

Z冰红茶

并发业务中,线程安全与否很重要,来看看你懂多少?

Java小咖秀

Java 多线程与高并发

MySQL 高可用和分布式数据库(训练营第六课)

看山是山

zookeeper CAP 主从复制 主主复制 MySQL 高可用

NOSQL - 第六周总结

孙志平

蟒周刊-429-Python 3.8.4 可用ed

ZoomQuiet大妈

Python 大妈 蟒周刊

JVM详解之:java class文件的密码本

程序那些事

Java JVM class GC 密码

职业发展的迷茫与困境:你真的了解职级体系吗?

伴鱼技术团队

程序员 技术管理 人才培养 职业成长 技术人生

探秘 Spring 的 PropertyEditor

CoderLi

Java spring 后台

GaussDB for DWS:内存自适应控制技术总结

华为云开发者联盟

大数据 数据湖 内存管理 sql 华为云

Redis进阶篇二——持久化

多选参数

redis redis6.0.0 redis集群 redis持久化

rdd序列化

InfoQ_6cf02607664f

计算机网络基础(三)---网络层-IP协议的转发流程

书旅

php laravel 网络协议 计算机基础 网络层

「1.4万字」玩转前端 Video 播放器 | 多图预警

阿宝哥

大前端 流媒体 Video播放器 HLS

架构师训练营作业(6周)

Hanson

C、C++、Java到Python,编程入门学习什么语言好?

华为云开发者联盟

c c++ Python 编程语言 Java 分布式

最右JS2Flutter框架——渲染机制(二)

刘剑

flutter 大前端 跨平台 探索与实践

CAP 原理及Doris 临时失效的处理过程

Acker飏

极客大学架构师训练营 CAP

半年估值翻番达62亿美元:大数据初创公司Databricks再获4亿融资_语言 & 开发_蔡芳芳_InfoQ精选文章