写点什么

ArchSummit 讲师专访:EMC 研究院资深研究员陶隽谈实时数据分析

  • 2012-07-04
  • 本文字数:1408 字

    阅读完需:约 5 分钟

编者按:由 InfoQ 主办的全球架构师峰会将于2012 年8 月10 日-12 日在深圳举行,为了更好地诠释架构的意义、方法和实践,InfoQ 中文站近期会集中发布一批与架构相关的文章,本篇即为其中之一。InfoQ 也欢迎读者亲身参与到本次全球架构师峰会中,与来自国内外的顶尖架构师进行面对面的交流。报名参会请点击这里

陶隽,EMC 中国研究院资深研究员。2008 年加入EMC, 曾参与多个存储管理系统的构架参考实现。现为EMC 中国研究院大数据实验室资深研究员,负责MapReduce 相关的研究和开发工作。2002 年复旦大学计算机系硕士毕业,加入EMC 之前,就职于Intel,先后参与BIOS 网络协议栈,Java 虚拟机及Web Services 管理协议方向的项目研发。

InfoQ:您能介绍一下这次演讲的内容和背景吗?

陶隽:演讲分别介绍了学术领域和工业界在大数据处理方面针对优化系统性能, 降低系统延迟的研究和实践。内容包括了基于 Batch 模式的和基于流式处理的多个系统, 此外还结合 Bolt MR 项目,介绍了 EMC 中国研究院大数据实验室在 MapReduce 数据处理的性能及可用性提升方面的研究工作。

InfoQ: 现在业界对于实时数据分析的越来越重视,各个厂商也都推出了自己的实时数据分析解决方案,您认为这背后的原因是什么呢?

陶隽:需求是对技术的强大驱动, 越来越多的在线应用对系统交互性, 计算的时效性方面提出了更高的要求。比如交互式数据查询,集群实时监控,搜索业务中的个性化广告推广等等都是其中典型的用例。

InfoQ:您能向 InfoQ 中文站的读者简单介绍一下实时数据分析当前的发展状况吗?

陶隽:大型实时数据分析要求系统具备高并发, 可扩展, 高性能等特点之外, 对系统处理的延迟也提出了更高的要求。不同的数据分析系统,为了获得各自面对的应用领域所需要的低延迟,会采取不同的技术方式:比如基于 MapReduce Batch 模式的系统,典型的有来自于 Berkeley 的 Hadoop Online Prototype(HOP) 原型系统,HOP 通过 pipeline 的方式增加数据处理的并行度,提高资源利用率并减少响应时间。而来自于 Google 的基于 MapReduce 的查询引擎 Tenzing 通过在 Worker Pool, 数据传输和查询优化等方面的工作大大降低了系统延迟。对应于 Batch 模式,来自 Yahoo!的 S4 和 Twitter 的 Storm 属于流式计算模式的系统,流式系统的特点是输入数据并不是存贮在可随机访问的存储中,而以数据流的形式以不确定的速率到达,对系统的负载,容错等方面提出了不同的设计需求。

InfoQ:您这次的演讲属于本次大会的“海量数据之快准狠”,面对海量数据量,您认为实现又快又准的诀窍是什么呢?

陶隽:个人的理解是一方面从系统设计的各个方面,包括资源调度、资源利用、数据传输等优化来提高系统伸缩性,降低系统延迟,另一方面又要处理好系统的容错性。

InfoQ:最后,相对于一般的数据分析而言,实时数据分析对于开发者的观念和思路上是否要求作出改变?如果有,会有哪些转变呢?

陶隽:比如说数据分析中由于采用的 pipeline 或者流式计算模型,导致编程模型上的变化,引入了计算状态,增量式计算的需求, 另外,应用的实施也会基于新的伸缩性和容错性方式。

相关信息

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2012-07-04 00:001750
用户头像

发布了 255 篇内容, 共 54.4 次阅读, 收获喜欢 9 次。

关注

评论

发布
暂无评论
发现更多内容

开源漏洞数量增长33%!企业安全债务不堪重负丨行业数据

SEAL安全

开源 开源安全 开源安全与治理

华为云全球加速GA:为您提供优质的网络服务

与时俱进的时代

统一观测|如何使用 Prometheus 监控 Windows

阿里巴巴云原生

阿里云 云原生 Prometheus

书单 | 这几本书被输出到德国啦!

博文视点Broadview

测试监控和测试控制

FunTester

OSCS开源安全周报第23期:Foxit PDF Reader/Editor 任意代码执行漏洞

墨菲安全

开源 安全

Wallys/QCA9531,MIMO,2.4G,30dBm,2 x 2.4G MMCX//AR9344 802.11a/802.11n 5G

wallysSK

安全可靠,弹性灵活--华为虚拟专用网络VPN

爱尚科技

Dragonfly 和 Nydus Mirror 模式集成实践

SOFAStack

有备无患!DBS高性价比方案助力富途证券备份上云

腾讯云数据库

数据库 腾讯云 备份 腾讯云数据库 富途证券

SpreadJS集算表联动数据透视表,高效实现前端数据多维分析

葡萄城技术团队

Excel 财务审核系统 #web

啊哈!缓存

孟君的编程札记

redis 缓存 cache canal Guava

软件测试丨工具在接口测试中发挥什么样的作用?

测试人

软件测试 自动化测试 接口测试 测试开发

华为云智能云接入ICA,助力企业轻松上云

与时俱进的时代

Wallys/QCA9531,MIMO,2.4G,30dBm,2 x 2.4G MMCX//AR9344 802.11a/802.11n 5G

wallysmeng

用Echarts实现前端表格引用从属关系可视化

葡萄城技术团队

《工业和信息化领域数据安全管理办法(试行)》2023年正式执行

行云管家

数据安全

盘点Python 中字符串的常用操作

华为云开发者联盟

Python 开发 华为云 12 月 PK 榜

一文解析Spring JDBC Template的使用指导

华为云开发者联盟

开发 华为云 12 月 PK 榜

HMS Core 3D流体仿真技术,打造移动端PC级流体动效

HMS Core

HMS Core

组织上线 | 资源共享,协作自如

Jianmu

Docker k8s 镜像 容器镜像

Vue + SpreadJS 实现高性能数据展示与分析

葡萄城技术团队

基于U-Net网络的图像分割的MindStudio实践

华为云开发者联盟

人工智能 华为云 12 月 PK 榜

企业数据安全解决方案-购买堡垒机!

行云管家

企业 数据安全 堡垒机

倒酒也是学问,贾斯特里尼&布鲁克斯葡萄酒专家教你如何倒酒

联营汇聚

【JVM规范】第一章 前言

四月

Java JVM

2022阅读总结

俞凡

阅读

葡萄酒选择有技巧,贾斯特里尼&布鲁克斯皇室佳酿值得品尝

联营汇聚

华为云智能云接入ICA,企业数据上云的信赖之选

与时俱进的时代

用优质俘获人心,贾斯特里尼&布鲁克斯葡萄酒成送礼首选

联营汇聚

开源 高性能 云原生!时序数据库 TDengine 上线亚马逊Marketplace

TDengine

数据库 tdengine 开源 时序数据库

ArchSummit讲师专访:EMC研究院资深研究员陶隽谈实时数据分析_数据库_胡键_InfoQ精选文章