ArchSummit讲师专访：EMC研究院资深研究员陶隽谈实时数据分析

编者按：由 InfoQ 主办的全球架构师峰会将于2012 年8 月10 日-12 日在深圳举行，为了更好地诠释架构的意义、方法和实践，InfoQ 中文站近期会集中发布一批与架构相关的文章，本篇即为其中之一。InfoQ 也欢迎读者亲身参与到本次全球架构师峰会中，与来自国内外的顶尖架构师进行面对面的交流。报名参会请点击这里。

陶隽，EMC 中国研究院资深研究员。2008 年加入EMC, 曾参与多个存储管理系统的构架参考实现。现为EMC 中国研究院大数据实验室资深研究员，负责MapReduce 相关的研究和开发工作。2002 年复旦大学计算机系硕士毕业，加入EMC 之前，就职于Intel，先后参与BIOS 网络协议栈，Java 虚拟机及Web Services 管理协议方向的项目研发。

InfoQ：您能介绍一下这次演讲的内容和背景吗？

陶隽：演讲分别介绍了学术领域和工业界在大数据处理方面针对优化系统性能, 降低系统延迟的研究和实践。内容包括了基于 Batch 模式的和基于流式处理的多个系统, 此外还结合 Bolt MR 项目，介绍了 EMC 中国研究院大数据实验室在 MapReduce 数据处理的性能及可用性提升方面的研究工作。

InfoQ：现在业界对于实时数据分析的越来越重视，各个厂商也都推出了自己的实时数据分析解决方案，您认为这背后的原因是什么呢？

陶隽：需求是对技术的强大驱动, 越来越多的在线应用对系统交互性, 计算的时效性方面提出了更高的要求。比如交互式数据查询，集群实时监控，搜索业务中的个性化广告推广等等都是其中典型的用例。

InfoQ：您能向 InfoQ 中文站的读者简单介绍一下实时数据分析当前的发展状况吗？

陶隽：大型实时数据分析要求系统具备高并发, 可扩展, 高性能等特点之外, 对系统处理的延迟也提出了更高的要求。不同的数据分析系统，为了获得各自面对的应用领域所需要的低延迟，会采取不同的技术方式：比如基于 MapReduce Batch 模式的系统，典型的有来自于 Berkeley 的 Hadoop Online Prototype(HOP) 原型系统，HOP 通过 pipeline 的方式增加数据处理的并行度，提高资源利用率并减少响应时间。而来自于 Google 的基于 MapReduce 的查询引擎 Tenzing 通过在 Worker Pool, 数据传输和查询优化等方面的工作大大降低了系统延迟。对应于 Batch 模式，来自 Yahoo！的 S4 和 Twitter 的 Storm 属于流式计算模式的系统，流式系统的特点是输入数据并不是存贮在可随机访问的存储中，而以数据流的形式以不确定的速率到达，对系统的负载，容错等方面提出了不同的设计需求。

InfoQ：您这次的演讲属于本次大会的“海量数据之快准狠”，面对海量数据量，您认为实现又快又准的诀窍是什么呢？

陶隽：个人的理解是一方面从系统设计的各个方面，包括资源调度、资源利用、数据传输等优化来提高系统伸缩性，降低系统延迟，另一方面又要处理好系统的容错性。

InfoQ：最后，相对于一般的数据分析而言，实时数据分析对于开发者的观念和思路上是否要求作出改变？如果有，会有哪些转变呢？

陶隽：比如说数据分析中由于采用的 pipeline 或者流式计算模型，导致编程模型上的变化，引入了计算状态，增量式计算的需求, 另外，应用的实施也会基于新的伸缩性和容错性方式。

相关信息

创作场景

ArchSummit 讲师专访：EMC 研究院资深研究员陶隽谈实时数据分析