限时领|《AI 百问百答》专栏课+实体书(包邮)! 了解详情
写点什么

ArchSummit 讲师专访:EMC 研究院资深研究员陶隽谈实时数据分析

  • 2012-07-04
  • 本文字数:1408 字

    阅读完需:约 5 分钟

编者按:由 InfoQ 主办的全球架构师峰会将于2012 年8 月10 日-12 日在深圳举行,为了更好地诠释架构的意义、方法和实践,InfoQ 中文站近期会集中发布一批与架构相关的文章,本篇即为其中之一。InfoQ 也欢迎读者亲身参与到本次全球架构师峰会中,与来自国内外的顶尖架构师进行面对面的交流。报名参会请点击这里

陶隽,EMC 中国研究院资深研究员。2008 年加入EMC, 曾参与多个存储管理系统的构架参考实现。现为EMC 中国研究院大数据实验室资深研究员,负责MapReduce 相关的研究和开发工作。2002 年复旦大学计算机系硕士毕业,加入EMC 之前,就职于Intel,先后参与BIOS 网络协议栈,Java 虚拟机及Web Services 管理协议方向的项目研发。

InfoQ:您能介绍一下这次演讲的内容和背景吗?

陶隽:演讲分别介绍了学术领域和工业界在大数据处理方面针对优化系统性能, 降低系统延迟的研究和实践。内容包括了基于 Batch 模式的和基于流式处理的多个系统, 此外还结合 Bolt MR 项目,介绍了 EMC 中国研究院大数据实验室在 MapReduce 数据处理的性能及可用性提升方面的研究工作。

InfoQ: 现在业界对于实时数据分析的越来越重视,各个厂商也都推出了自己的实时数据分析解决方案,您认为这背后的原因是什么呢?

陶隽:需求是对技术的强大驱动, 越来越多的在线应用对系统交互性, 计算的时效性方面提出了更高的要求。比如交互式数据查询,集群实时监控,搜索业务中的个性化广告推广等等都是其中典型的用例。

InfoQ:您能向 InfoQ 中文站的读者简单介绍一下实时数据分析当前的发展状况吗?

陶隽:大型实时数据分析要求系统具备高并发, 可扩展, 高性能等特点之外, 对系统处理的延迟也提出了更高的要求。不同的数据分析系统,为了获得各自面对的应用领域所需要的低延迟,会采取不同的技术方式:比如基于 MapReduce Batch 模式的系统,典型的有来自于 Berkeley 的 Hadoop Online Prototype(HOP) 原型系统,HOP 通过 pipeline 的方式增加数据处理的并行度,提高资源利用率并减少响应时间。而来自于 Google 的基于 MapReduce 的查询引擎 Tenzing 通过在 Worker Pool, 数据传输和查询优化等方面的工作大大降低了系统延迟。对应于 Batch 模式,来自 Yahoo!的 S4 和 Twitter 的 Storm 属于流式计算模式的系统,流式系统的特点是输入数据并不是存贮在可随机访问的存储中,而以数据流的形式以不确定的速率到达,对系统的负载,容错等方面提出了不同的设计需求。

InfoQ:您这次的演讲属于本次大会的“海量数据之快准狠”,面对海量数据量,您认为实现又快又准的诀窍是什么呢?

陶隽:个人的理解是一方面从系统设计的各个方面,包括资源调度、资源利用、数据传输等优化来提高系统伸缩性,降低系统延迟,另一方面又要处理好系统的容错性。

InfoQ:最后,相对于一般的数据分析而言,实时数据分析对于开发者的观念和思路上是否要求作出改变?如果有,会有哪些转变呢?

陶隽:比如说数据分析中由于采用的 pipeline 或者流式计算模型,导致编程模型上的变化,引入了计算状态,增量式计算的需求, 另外,应用的实施也会基于新的伸缩性和容错性方式。

相关信息

2012-07-04 00:002138
用户头像

发布了 255 篇内容, 共 64.1 次阅读, 收获喜欢 10 次。

关注

评论

发布
暂无评论
发现更多内容

利用闭包实现自定义等待方法

FunTester

多线程 并发测试 闭包 FunTester 自定义等待

元宇宙到家,那些「聪明」的设计工具

Zilliz

一键抠除路人甲,昇腾CANN带你识破神秘的“AI消除术”

华为云开发者联盟

CANN 昇腾 图像消除 智能实例分割 CRA算法

web技术分享| web的白板工具栏封装

anyRTC开发者

前端 Web 音视频 视频会议 白板

深入解析QUIC协议

拍乐云Pano

WebRTC RTC QUIC QUIC协议

Linux之文件属性详解

入门小站

Linux

据说有人面试栽在了Thread类的stop()方法和interrupt()方法上

华为云开发者联盟

高并发 crud Thread类 stop interrupt

一文带你看懂分布式软总线在家庭场景的应用

HarmonyOS开发者

HarmonyOS

vscode中Tasks及Emmet的应用

编程江湖

vscode

工作中遇到的50个JavaScript的基础知识点

Sunshine_Lin

面试 前端 进阶 基础

开源走向世界(上):开源构建全球化的舞台丨BDTC 2021

PingCAP

自动驾驶训练如火如荼,网络带宽跟不上怎么破?

焱融科技

人工智能 自动驾驶 云计算 高性能 文件存储

java开发之内存模型面试分享

@零度

JAVA开发 Java内存模型

前端开发代码区域规范分享

@零度

前端开发 代码规范

在线JSON转XML工具

入门小站

工具

Towhee,开源的 embedding 框架与社区

Zilliz

数据库 开源 向量检索

湖仓一体天花板,大数据一站式SQL分析技术实践

华为云开发者联盟

大数据 HetuEngine 湖仓一体 SQL分析 华为云FusionInsight

Apache Oozie学习笔记(一)

恒生LIGHT云社区

大数据 hadoop 工作流 调度

运维工程师必备利器|一招实现运维智能化!

云智慧AIOps社区

运维 AIOPS 运维工程师 基础知识 自动化运维

Avue中如何对option中属性动态赋值

泉城老铁

前端 avue

[转]注释驱动的 Spring cache 缓存介绍

kimmking

网络安全好学吗?手把手教你学metasploit信息收集 网络安全工程师学习资料汇总

学神来啦

大数据开发之Spark Shuffle 原理分析

@零度

大数据 spark

数据分析人员需要掌握SQL到什么程度?3个常考题目刷一刷

博文视点Broadview

阿里云刘强:无影云电脑构建云上安全办公室

阿里云弹性计算

弹性计算 年度峰会 无影云电脑

阿里云万郁香:多样付费选择构筑成本最优的弹性体验

阿里云弹性计算

阿里云 年度峰会 付费方式

Avue复选框动态赋值不能渲染问题解决方式

泉城老铁

前端 avue

ADmobile首席架构师王威:广告业务云上运维最佳实践

阿里云弹性计算

阿里云 弹性计算 年度峰会

尚硅谷Docker与微服务实战教程发布

@零度

大数据 dokcer

CI/CD制作流程

wong

Docker jenkins ansible kubenetes

译文丨伯克利对serverless的看法:简化云编程

华为云开发者联盟

Serverless 云编程 伯克利 无服务器计算 云函数

ArchSummit讲师专访:EMC研究院资深研究员陶隽谈实时数据分析_数据库_胡键_InfoQ精选文章