Pivotal和EMC谈下一代数据湖技术：Tachyon + Spark将极为重要_大数据_sai

阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见，现购票可享受 9 折优惠｜AICon 了解详情 



 写点什么

在纽约举办的 2014 年 Strata+Hadoop World 大会开幕的前一天，Pivotal 在官方博客上发布了一篇名为《数据湖（Data Lake）的未来架构：基于 Tachyon 和 Apache Spark 的 In-memory 数据交换平台》的文章，表达 Pivotal 与 EMC 对下一代数据湖技术的展望：

下一代数据湖技术的关键在于 In-memory 处理的普及 + 能够在单一环境下支持多重数据分析负载的架构。

文中表示， Pivotal Big Data Suite 一直以来的理念是将数据湖作为企业内所有数据的中心化仓库，这样的好处是可以对所有的数据——无论是内存数据还是磁盘数据——进行 SQL 级别的处理，同时具有将多种计算范式持久化的能力。然而随着高性能内存的性价比越来越高，内存数据库的相关技术与企业越来越成熟，Pivotal 认为未来的数据湖将基于一种组合式的新架构：磁盘存储 + 内存处理的混合框架。

Pivotal 选择了 Tachyon 和 Spark 这两个开源项目作为此新架构的基础。其中，Tachyon 作为其内存数据交换平台，而 Spark 作为内存计算层。文章在末尾处表示，Pivotal 相信 Tachyon 会给 HDFS 这样的文件存储与内存处理的交互方式带来革命性的变化，并展望 Tachyon 会成为其 Pivotal Big Data Suite 的中心数据交换层。

InfoQ 此前对 Spark 项目有过为数不少的报道和介绍，这个孵化自AMPLab 的项目在过去两年间受到业界的广泛关注，被视为实时数据处理的一个优先选项。Tachyon 项目也是来自于AMPLab，最早在2012 年底对外发布，是一个相对年轻的项目，在最近也受到了越来越多公司的关注，这包括雅虎、红帽、Intel 还有EMC——EMC 已经在其闪存产品DSSD 和 Isilon 中尝试集成 Tachyon，Pivotal 的文章中称 Tachyon 是 AMPLab 历史上成长最快的项目。

根据该项目官网的介绍，Tachyon 是一个内存分布式文件系统，效果是“在Spark 或MapReduce 等集群框架中实现内存级速度的跨集群文件共享”。它具有类Java 的文件API、兼容Hadoop MapReduce 和Spark、底层文件系统可插拔等特性。

InfoQ 中文站针对此事采访了 Tachyon 项目的负责人、UC Berkeley AMPLab 的博士候选人李浩源，沟通内容如下：

InfoQ：很高兴看到 Tachyon 得到越来越多的关注。Tachyon 是你的博士研究方向，当时为何选择了这样一个课题？

李浩源：一方面是个人兴趣，一直以来，我对存储有很大的兴趣，因为计算机数据处理流程分为读取、处理分析、以及写入，前后都是都是有存储系统来完成。另一方面是机会，我是 3 年前加入 UC Berkeley AMPLab 的，实验室有过很多成功的项目，比如 Apache Mesos 和 Apache Spark，但是它们一个是计算机集群资源调度层，一个是并行计算层，还没有一个存储层的支撑。两方面结合，我就选择了这个课题。

InfoQ：在 Github 上看到现在参与 Tachyon 项目的开发者和企业也有将近 50 人，你从大家的 patch 来看，是否感觉各个公司的侧重点有些不同呢？目前项目是如何管理的?

李浩源：参与 Tachyon 项目的开发者实际上大于 Github 上的统计数据（其中包括不少来自国内的开发者），并且还有一些比较大的功能在一些公司和科研机构已经内部测试过，正在提交的过程中。

因为每个公司机构的战略不一样，所以的确侧重点是不一样。比如说，网络硬件公司就会对 Tachyon 的网络层更加有兴趣，系统集成公司对 Tachyon 的兼容性更有兴趣。

从项目管理上来讲，Tachyon 有一个开放的社区，很欢迎更多的开发者加入。目前的流程是比较小规模的改动，开发者会自己提交一个 Patch。而对于比较大的功能，开发者和我会紧密的合作，确保功能和项目的总体方向切合，并有一个初步设计意向。而后社区会对设计和代码提出建议，经过一些轮的改动之后，我会尽快把代码融合 (merge) 到项目的公共代码库中。

随着项目的发展，越来越多的公司和机构已经或者开始投入全职员工对项目进行开发，其中包括很多在其领域领先的上市公司，从长期来讲，我们会像 Apache Mesos 以及 Apache Spark 一样，进入 Apache Software Foundation。这里欢迎更多的开发者加入。

InfoQ：你以前说过，在学校做东西需要有学术价值，但企业更注重将东西产品化、商业化。现在 Tachyon 毫无疑问是越来越商业化了，你现在觉得出论文和商业化有很大的差别吗？

李浩源：差别的确是有的，但是不一定‘很大’。我的经验还很浅薄，但是在我做的领域，学术是需要有前瞻性（比如需要预测未来的趋势，根据趋势来指引方向），可以作为工业化的基础，但是工业化在此基础上还需要做大量的工作。这两件事情在 Tachyon 这个项目上目前来看是相辅相成的。比如我们 Tachyon 第一篇论文只是项目中的一个功能、或者说是一个点，从这个点出发，我们做大量的工作来工业化。这些工作的直观成果是，今年以来，使用 Tachyon 的公司数量在指数增长，根据三个月前的调查，已经有至少 50-100 家公司已经在使用 Tachyon。这些工作的间接成果是，通过更多公司的使用，使得学术机构看到很多不同的应用案例，从而进行相对应的研究。目前我们实验室内部，以及和其他高校合作，就有不少基于目前 Tachyon 项目的相关科研工作，明年应该会看到更多的成果。因为这些科研距离实际案例很近，所以会相对更加容易的增强 Tachyon 在产业界的应用和价值。

李浩源将在 10 月 16 日的 Strata 大会上就 Tachyon 项目进行分享。

公众号推荐：

2024 年 1 月，InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》，揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步，预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」，回复「大模型报告」免费获取电子版研究报告。

发布

暂无评论

创作场景

Pivotal 和 EMC 谈下一代数据湖技术：Tachyon + Spark 将极为重要

公众号推荐：

评论

架构师训练营大作业（二）

Linux Lab 进阶： Qemu 模拟器 & Toolchain 工具链

并发编程系列：并发编程基础

MyBatis专栏 - 一级缓存

架构师训练营第2期大作业 (一)

week11-homework

从云数据迁移服务看MySQL大表抽取模式

第6周课后练习-技术选型二

Ebean ORM框架介绍-1.增强注解

一文总结GaussDB通信原理知识

对话京东科技算法科学家吴友政：回望2020，NLP技术发展速度强劲

【LeetCode】可获得的最大点数

日记 2021年2月6日(周六)

架构师训练营第2期大作业（二）

产品训练营第四章作业（一）

2 期架构师训练营 - 大作业（一）

WiFi 空口抓包工具 --- OmniPeek

上古神器 sed 教程详解，小白也能看得懂

大作业二-请用思维导图画出架构师训练营所有技术知识点

Elasticsearch 分页搜索以及 deep paging 性能问题

VoltDB让Kafka支持复杂数据流驱动的实时业务决策

前端必学必会-多媒体-本地存储-浏览器与服务器的交互-通信功能

做事情时，脑袋中一次只装一件事

LeetCode题解：33. 搜索旋转排序数组，二分查找，JavaScript，详细注释

架构师训练营-架构大作业（一）

Android 完全符合规则但很头疼的Json映射成一个树结构且可折叠的列表？

机器学习笔记之：

中国移动工程师浅析：KubeEdge在国家工业互联网大数据中心的架构设计与应用

翻译：《实用的Python编程》01_01_Python

week11-conclusion

2. 无门槛学会数据类型与输入、输出函数，滚雪球学 Python

创作场景

Pivotal 和 EMC 谈下一代数据湖技术：Tachyon + Spark 将极为重要

公众号推荐：

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载