写点什么

ArchSummit 讲师专访:EMC 研究院资深研究员陶隽谈实时数据分析

  • 2012-07-04
  • 本文字数:1408 字

    阅读完需:约 5 分钟

编者按:由 InfoQ 主办的全球架构师峰会将于2012 年8 月10 日-12 日在深圳举行,为了更好地诠释架构的意义、方法和实践,InfoQ 中文站近期会集中发布一批与架构相关的文章,本篇即为其中之一。InfoQ 也欢迎读者亲身参与到本次全球架构师峰会中,与来自国内外的顶尖架构师进行面对面的交流。报名参会请点击这里

陶隽,EMC 中国研究院资深研究员。2008 年加入EMC, 曾参与多个存储管理系统的构架参考实现。现为EMC 中国研究院大数据实验室资深研究员,负责MapReduce 相关的研究和开发工作。2002 年复旦大学计算机系硕士毕业,加入EMC 之前,就职于Intel,先后参与BIOS 网络协议栈,Java 虚拟机及Web Services 管理协议方向的项目研发。

InfoQ:您能介绍一下这次演讲的内容和背景吗?

陶隽:演讲分别介绍了学术领域和工业界在大数据处理方面针对优化系统性能, 降低系统延迟的研究和实践。内容包括了基于 Batch 模式的和基于流式处理的多个系统, 此外还结合 Bolt MR 项目,介绍了 EMC 中国研究院大数据实验室在 MapReduce 数据处理的性能及可用性提升方面的研究工作。

InfoQ: 现在业界对于实时数据分析的越来越重视,各个厂商也都推出了自己的实时数据分析解决方案,您认为这背后的原因是什么呢?

陶隽:需求是对技术的强大驱动, 越来越多的在线应用对系统交互性, 计算的时效性方面提出了更高的要求。比如交互式数据查询,集群实时监控,搜索业务中的个性化广告推广等等都是其中典型的用例。

InfoQ:您能向 InfoQ 中文站的读者简单介绍一下实时数据分析当前的发展状况吗?

陶隽:大型实时数据分析要求系统具备高并发, 可扩展, 高性能等特点之外, 对系统处理的延迟也提出了更高的要求。不同的数据分析系统,为了获得各自面对的应用领域所需要的低延迟,会采取不同的技术方式:比如基于 MapReduce Batch 模式的系统,典型的有来自于 Berkeley 的 Hadoop Online Prototype(HOP) 原型系统,HOP 通过 pipeline 的方式增加数据处理的并行度,提高资源利用率并减少响应时间。而来自于 Google 的基于 MapReduce 的查询引擎 Tenzing 通过在 Worker Pool, 数据传输和查询优化等方面的工作大大降低了系统延迟。对应于 Batch 模式,来自 Yahoo!的 S4 和 Twitter 的 Storm 属于流式计算模式的系统,流式系统的特点是输入数据并不是存贮在可随机访问的存储中,而以数据流的形式以不确定的速率到达,对系统的负载,容错等方面提出了不同的设计需求。

InfoQ:您这次的演讲属于本次大会的“海量数据之快准狠”,面对海量数据量,您认为实现又快又准的诀窍是什么呢?

陶隽:个人的理解是一方面从系统设计的各个方面,包括资源调度、资源利用、数据传输等优化来提高系统伸缩性,降低系统延迟,另一方面又要处理好系统的容错性。

InfoQ:最后,相对于一般的数据分析而言,实时数据分析对于开发者的观念和思路上是否要求作出改变?如果有,会有哪些转变呢?

陶隽:比如说数据分析中由于采用的 pipeline 或者流式计算模型,导致编程模型上的变化,引入了计算状态,增量式计算的需求, 另外,应用的实施也会基于新的伸缩性和容错性方式。

相关信息

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2012-07-04 00:001752
用户头像

发布了 255 篇内容, 共 54.5 次阅读, 收获喜欢 9 次。

关注

评论

发布
暂无评论
发现更多内容

MyBatis专栏 - 进阶(引入外部配置文件, 类型参数设置)

小马哥

Java mybatis 七日更 2月春节不断更

股票配资系统开发

v16629866266

Elasticsearch multi-index 搜索

escray

elastic 七日更 死磕Elasticsearch 60天通过Elastic认证考试 2月春节不断更

让人“眼前一亮、不明觉厉”的互联网技术PPT

不脱发的程序猿

程序人生 PPT 2月春节不断更 互联网技术PPT 互联网工具

容器&服务:开篇,压力与资源

程序员架构进阶

容器 服务 七日更 28天写作 2月春节不断更

探寻内部类的奥秘(上)

后台技术汇

2月春节不断更

机器学习笔记之:Matrix Matrix Multiplication

Nydia

2 期架构师训练营 - 大作业(二)

云飞扬

架构师训练营第2期

学习总结之HTML5剑指前端(建议收藏,图文并茂)

我是哪吒

学习 程序员 面试 大前端 2月春节不断更

Webpack | 提升构建速度和体积优化的N种方式

梁龙先森

大前端 webpack 2月春节不断更

大作业2-知识总结

arcyao

2020年末总结,脚踏实地,一步一个脚印——致敬自己一年的心酸历程

孙叫兽

孙叫兽 年度报告 引航计划

Go Modules v2 及后续版本

Rayjun

Go 语言

话题讨论 |互联网软件技术培训,靠谱吗?

不脱发的程序猿

程序员 程序人生 话题讨论 互联网培训 技术培训

大作业1-同城快递业务系统设计

arcyao

期末大作业一

心在那片海

Linux Lab 进阶: Uboot 引导程序

贾献华

Linux bootloader Linux Kenel boot

即使技术再精,面试时一问这个必挂!!

冰河

面试 类加载器 我要进大厂 Java类加载

婚恋交友软件开发

luluhulian

史上最全的技术手册整理总结,编程小白都从这篇文章迅速成为大牛

孙叫兽

Java 大前端 技术手册 开发文档

OpenCV简介及其工程应用-游戏色块检测

行者AI

OpenCV

Python实现钉钉/企业微信自动打卡

sum56

Python python 爬虫 打卡

驱动力读书笔记之四

张老蔫

28天写作

程序员养家活口接私活必备网站(顺便用技术改变世界)

孙叫兽

程序员 网站 私活

阿里架构师经验分享!写给互联网大厂员工的真心话,最全的BAT大厂面试题整理

欢喜学安卓

android 程序员 面试 移动开发

什么是防火墙?

重磅发布 | 2021年OpenAtom XuperChain开源技术路径

开放原子开源基金会

区块链 百度 开源 开放原子开源基金会

产品 0 期 - 第四周作业

vipyinzhiwei

百度网盘限速解决方案

孙叫兽

解决方案 百度网盘 限速

使用APICloud敏捷式开发总结,回顾开发一个完整APP过程。

孙叫兽

App 开发 APICloud 引航计划

“五年饮冰,难凉热血”,一名专科生的求学历程

不脱发的程序猿

程序人生 心路历程 2月春节不断更 大学总结 2020年度总结

ArchSummit讲师专访:EMC研究院资深研究员陶隽谈实时数据分析_数据库_胡键_InfoQ精选文章