写点什么

ArchSummit 讲师专访:EMC 研究院资深研究员陶隽谈实时数据分析

  • 2012-07-04
  • 本文字数:1408 字

    阅读完需:约 5 分钟

编者按:由 InfoQ 主办的全球架构师峰会将于2012 年8 月10 日-12 日在深圳举行,为了更好地诠释架构的意义、方法和实践,InfoQ 中文站近期会集中发布一批与架构相关的文章,本篇即为其中之一。InfoQ 也欢迎读者亲身参与到本次全球架构师峰会中,与来自国内外的顶尖架构师进行面对面的交流。报名参会请点击这里

陶隽,EMC 中国研究院资深研究员。2008 年加入EMC, 曾参与多个存储管理系统的构架参考实现。现为EMC 中国研究院大数据实验室资深研究员,负责MapReduce 相关的研究和开发工作。2002 年复旦大学计算机系硕士毕业,加入EMC 之前,就职于Intel,先后参与BIOS 网络协议栈,Java 虚拟机及Web Services 管理协议方向的项目研发。

InfoQ:您能介绍一下这次演讲的内容和背景吗?

陶隽:演讲分别介绍了学术领域和工业界在大数据处理方面针对优化系统性能, 降低系统延迟的研究和实践。内容包括了基于 Batch 模式的和基于流式处理的多个系统, 此外还结合 Bolt MR 项目,介绍了 EMC 中国研究院大数据实验室在 MapReduce 数据处理的性能及可用性提升方面的研究工作。

InfoQ: 现在业界对于实时数据分析的越来越重视,各个厂商也都推出了自己的实时数据分析解决方案,您认为这背后的原因是什么呢?

陶隽:需求是对技术的强大驱动, 越来越多的在线应用对系统交互性, 计算的时效性方面提出了更高的要求。比如交互式数据查询,集群实时监控,搜索业务中的个性化广告推广等等都是其中典型的用例。

InfoQ:您能向 InfoQ 中文站的读者简单介绍一下实时数据分析当前的发展状况吗?

陶隽:大型实时数据分析要求系统具备高并发, 可扩展, 高性能等特点之外, 对系统处理的延迟也提出了更高的要求。不同的数据分析系统,为了获得各自面对的应用领域所需要的低延迟,会采取不同的技术方式:比如基于 MapReduce Batch 模式的系统,典型的有来自于 Berkeley 的 Hadoop Online Prototype(HOP) 原型系统,HOP 通过 pipeline 的方式增加数据处理的并行度,提高资源利用率并减少响应时间。而来自于 Google 的基于 MapReduce 的查询引擎 Tenzing 通过在 Worker Pool, 数据传输和查询优化等方面的工作大大降低了系统延迟。对应于 Batch 模式,来自 Yahoo!的 S4 和 Twitter 的 Storm 属于流式计算模式的系统,流式系统的特点是输入数据并不是存贮在可随机访问的存储中,而以数据流的形式以不确定的速率到达,对系统的负载,容错等方面提出了不同的设计需求。

InfoQ:您这次的演讲属于本次大会的“海量数据之快准狠”,面对海量数据量,您认为实现又快又准的诀窍是什么呢?

陶隽:个人的理解是一方面从系统设计的各个方面,包括资源调度、资源利用、数据传输等优化来提高系统伸缩性,降低系统延迟,另一方面又要处理好系统的容错性。

InfoQ:最后,相对于一般的数据分析而言,实时数据分析对于开发者的观念和思路上是否要求作出改变?如果有,会有哪些转变呢?

陶隽:比如说数据分析中由于采用的 pipeline 或者流式计算模型,导致编程模型上的变化,引入了计算状态,增量式计算的需求, 另外,应用的实施也会基于新的伸缩性和容错性方式。

相关信息

2012-07-04 00:002116
用户头像

发布了 255 篇内容, 共 63.7 次阅读, 收获喜欢 10 次。

关注

评论

发布
暂无评论
发现更多内容

建筑一体化弧形LED显示屏

Dylan

数字 城市 LED显示屏 全彩LED显示屏 led显示屏厂家

阶跃星辰开源 130B 端到端语音大模型 Step-Audio-AQAA;MiniMax计划发布独立音频生成应用丨日报

声网

京东率先开启“3D信息流时代” 让购物更有趣

京东零售技术

AI技术在英语听力练习中的应用

北京木奇移动技术有限公司

软件外包公司 AI听力练习 AI英语学习

故障诊断:ASM莫名出现GC等待事件、ADG的MRP进程HANG住

电子尖叫食人鱼

故障

零信任服务与传统VPN的比较及其在技术方面的区别

天翼云开发者社区

安全

2025广东软件风云录揭晓,嘉为蓝鲸研运一体、自动化运维、ITSM、CMP四大产品荣耀入选!

嘉为蓝鲸

ITSM cmp 自动化运维 研运一体

老代码别硬改!AI 秒破遗留系统重构 3 大死穴,90% 工程师踩过的坑

飞算JavaAI开发助手

🎉 Harmony OS Next里的Web组件:网页加载的全流程掌控手册

Turing_010

Spring AI Alibaba 1.0 GA 正式发布,Java 智能体开发进入新时代

阿里巴巴云原生

个人网站大更新,还是有个总站比较好

程序员郭顺发

提升 AI 交付效率:嘉为蓝鲸 CPack 制品库 ML 模型管理功能助力 DevOps 落地

嘉为蓝鲸

DevOps 制品库 CPack

祖传代码救命指南!AI 一键解析 + 智能重构,让老系统起死回生

飞算JavaAI开发助手

传统数据仓库正在被 Agentic AI 吞噬?Agentic Data Stack 初探

白鲸开源

大数据 AI 数据仓库 数据科学 Agentic AI

为何京东与蚂蚁集团竞相申请稳定币牌照?

TechubNews

成功案例丨Altair 数字孪生技术助力GEZE打造智能建筑新标杆

Altair RapidMiner

制造业 数字孪生 仿真 智能制造

25年厦门正规等保测评机构有哪些?在哪里?

行云管家

网络安全 等保 堡垒机 等保测评

DistilQwen-ThoughtX蒸馏模型在PAI-ModelGallery的训练、评测、压缩及部署实践

阿里云大数据AI技术

人工智能 模型蒸馏 #大数据 #大语言模型 DistilQwen2.5

AI英语听力APP的开发框架

北京木奇移动技术有限公司

软件外包公司 AI听力练习 AI英语学习

枫清科技携手中化信息挖掘实现AI高价值场景应用,打通智能化“最后一公里”

Fabarta

中化信息 枫清科技 智能化建设

TablePlus 代码审查功能的使用

柠檬与橘子

科大讯飞基于Volcano实现AI基础设施突破,赢得CNCF最终用户案例研究竞赛

华为云原生团队

云计算 容器 云原生 Volcano

智慧农业:英特尔处理器驱动更加可持续、高效的农业发展

科技热闻

淘宝商品详情 API 的多元应用与进阶优化

Noah

解答你关于 IoTDB 用户大会的所有问题!早鸟报名“加鸡腿”福利追加

Apache IoTDB

什么是Redis缓存穿透?redis面试题及答案乐分享(附面试题大全)

程序员高级码农

程序员‘ redis' Java.

🤚🏻 Harmony OS Next玩转多层级手势事件:当组件遇上“套娃”,触摸该怎么分家?

Turing_010

Last Call丨全球权威轻量化大奖Altair Enlighten Award 报名即将截止!

Altair RapidMiner

仿真 hyperworks 汽车轻量化 结构优化 可持续发展

🌟Harmony OS Next手势操作大揭秘:让你的App动感十足!🌟

Turing_010

英特尔携手合作伙伴打造高效智算底座,加速企业AI应用落地

科技热闻

鸿蒙Next仓颉语言开发实战教程:订单详情

幽蓝计划

ArchSummit讲师专访:EMC研究院资深研究员陶隽谈实时数据分析_数据库_胡键_InfoQ精选文章