Pivotal和EMC谈下一代数据湖技术：Tachyon + Spark将极为重要

在纽约举办的 2014 年 Strata+Hadoop World 大会开幕的前一天，Pivotal 在官方博客上发布了一篇名为《数据湖（Data Lake）的未来架构：基于 Tachyon 和 Apache Spark 的 In-memory 数据交换平台》的文章，表达 Pivotal 与 EMC 对下一代数据湖技术的展望：

下一代数据湖技术的关键在于 In-memory 处理的普及 + 能够在单一环境下支持多重数据分析负载的架构。

文中表示， Pivotal Big Data Suite 一直以来的理念是将数据湖作为企业内所有数据的中心化仓库，这样的好处是可以对所有的数据——无论是内存数据还是磁盘数据——进行 SQL 级别的处理，同时具有将多种计算范式持久化的能力。然而随着高性能内存的性价比越来越高，内存数据库的相关技术与企业越来越成熟，Pivotal 认为未来的数据湖将基于一种组合式的新架构：磁盘存储 + 内存处理的混合框架。

Pivotal 选择了 Tachyon 和 Spark 这两个开源项目作为此新架构的基础。其中，Tachyon 作为其内存数据交换平台，而 Spark 作为内存计算层。文章在末尾处表示，Pivotal 相信 Tachyon 会给 HDFS 这样的文件存储与内存处理的交互方式带来革命性的变化，并展望 Tachyon 会成为其 Pivotal Big Data Suite 的中心数据交换层。

InfoQ 此前对 Spark 项目有过为数不少的报道和介绍，这个孵化自AMPLab 的项目在过去两年间受到业界的广泛关注，被视为实时数据处理的一个优先选项。Tachyon 项目也是来自于AMPLab，最早在2012 年底对外发布，是一个相对年轻的项目，在最近也受到了越来越多公司的关注，这包括雅虎、红帽、Intel 还有EMC——EMC 已经在其闪存产品DSSD 和 Isilon 中尝试集成 Tachyon，Pivotal 的文章中称 Tachyon 是 AMPLab 历史上成长最快的项目。

根据该项目官网的介绍，Tachyon 是一个内存分布式文件系统，效果是“在Spark 或MapReduce 等集群框架中实现内存级速度的跨集群文件共享”。它具有类Java 的文件API、兼容Hadoop MapReduce 和Spark、底层文件系统可插拔等特性。

InfoQ 中文站针对此事采访了 Tachyon 项目的负责人、UC Berkeley AMPLab 的博士候选人李浩源，沟通内容如下：

InfoQ：很高兴看到 Tachyon 得到越来越多的关注。Tachyon 是你的博士研究方向，当时为何选择了这样一个课题？

李浩源：一方面是个人兴趣，一直以来，我对存储有很大的兴趣，因为计算机数据处理流程分为读取、处理分析、以及写入，前后都是都是有存储系统来完成。另一方面是机会，我是 3 年前加入 UC Berkeley AMPLab 的，实验室有过很多成功的项目，比如 Apache Mesos 和 Apache Spark，但是它们一个是计算机集群资源调度层，一个是并行计算层，还没有一个存储层的支撑。两方面结合，我就选择了这个课题。

InfoQ：在 Github 上看到现在参与 Tachyon 项目的开发者和企业也有将近 50 人，你从大家的 patch 来看，是否感觉各个公司的侧重点有些不同呢？目前项目是如何管理的?

李浩源：参与 Tachyon 项目的开发者实际上大于 Github 上的统计数据（其中包括不少来自国内的开发者），并且还有一些比较大的功能在一些公司和科研机构已经内部测试过，正在提交的过程中。

因为每个公司机构的战略不一样，所以的确侧重点是不一样。比如说，网络硬件公司就会对 Tachyon 的网络层更加有兴趣，系统集成公司对 Tachyon 的兼容性更有兴趣。

从项目管理上来讲，Tachyon 有一个开放的社区，很欢迎更多的开发者加入。目前的流程是比较小规模的改动，开发者会自己提交一个 Patch。而对于比较大的功能，开发者和我会紧密的合作，确保功能和项目的总体方向切合，并有一个初步设计意向。而后社区会对设计和代码提出建议，经过一些轮的改动之后，我会尽快把代码融合 (merge) 到项目的公共代码库中。

随着项目的发展，越来越多的公司和机构已经或者开始投入全职员工对项目进行开发，其中包括很多在其领域领先的上市公司，从长期来讲，我们会像 Apache Mesos 以及 Apache Spark 一样，进入 Apache Software Foundation。这里欢迎更多的开发者加入。

InfoQ：你以前说过，在学校做东西需要有学术价值，但企业更注重将东西产品化、商业化。现在 Tachyon 毫无疑问是越来越商业化了，你现在觉得出论文和商业化有很大的差别吗？

李浩源：差别的确是有的，但是不一定‘很大’。我的经验还很浅薄，但是在我做的领域，学术是需要有前瞻性（比如需要预测未来的趋势，根据趋势来指引方向），可以作为工业化的基础，但是工业化在此基础上还需要做大量的工作。这两件事情在 Tachyon 这个项目上目前来看是相辅相成的。比如我们 Tachyon 第一篇论文只是项目中的一个功能、或者说是一个点，从这个点出发，我们做大量的工作来工业化。这些工作的直观成果是，今年以来，使用 Tachyon 的公司数量在指数增长，根据三个月前的调查，已经有至少 50-100 家公司已经在使用 Tachyon。这些工作的间接成果是，通过更多公司的使用，使得学术机构看到很多不同的应用案例，从而进行相对应的研究。目前我们实验室内部，以及和其他高校合作，就有不少基于目前 Tachyon 项目的相关科研工作，明年应该会看到更多的成果。因为这些科研距离实际案例很近，所以会相对更加容易的增强 Tachyon 在产业界的应用和价值。

李浩源将在 10 月 16 日的 Strata 大会上就 Tachyon 项目进行分享。

创作场景

Pivotal 和 EMC 谈下一代数据湖技术：Tachyon + Spark 将极为重要