写点什么

Hadoop Summit 2016 会场回顾(三)

  • 2016-04-21
  • 本文字数:3033 字

    阅读完需:约 10 分钟

2016 年 4 月 13 日,都柏林的 Liffey 河畔,Hadoop Summit 2016 在 Convention 会展中心盛大开幕。大会主要议程历时 2 天,有 100 多场演讲,与会者超过 1400 人。主要内容包括 Apache Committer 洞察、数据科学、运营管理、开发技术、数据商务、物联网、Hadoop 未来几大系列。本文就 Apache Committer 洞察、开发技术、Hadoop 未来这三方面的一些内容做一个简单回顾。

Apache NiFi**** 演讲

演讲来自 Bryan Bende, Hortonworks。Apache NiFi 是 Hortonworks 最近推的一个跨系统的数据流集成系统。在拥挤的 Hadoop 数据流系统中,它定位在系统间的集成,强调可靠、安全、跨地域的数据传输,能做简单的数据处理(比如格式转换),但不做分布式计算,不做复杂的数据处理(比如连接、时间窗聚合),从而和 Storm、Spark Streaming、Flink 等加以区分。既然是集成,那就要与各类 Hadoop 系统连接,支持有 HDFS、HBase、Kafka、Spark Streaming、Storm、Flink 等等,有易于扩展的编程接口。NiFi 有所见即所得的图形界面,可以拖拽创建流程图,动态部署。可惜展示的一个简单日志分析的流程图看起来还是非常复杂,让人想起从前在工作流系统上用图形做循环编程的噩梦。NiFi 的未来发展有高可用性、多租户、和能在小型设备上运行的 MiNiFi 等。个人感觉 NiFi 的定位比较窄,大型的跨地域的数据中心是它的必然用户,而小型的集中的数据中心也许会偏爱简单的 ETL,或者直线连接上下游系统,跳过这个额外的数据集成组件。

The Future of Apache Storm**** 演讲

P. Taylor Goetz,Apache Storm 的 Vice President 为我们带来这个演讲。其内容主要是 Storm 1.0 更新内容,而非未来(当然在准备演讲的 2 个月前,这些应该是未来)。Pacemaker 是 Zookeeper 的一个可选替代,解决了 2k+ 节点大型集群在 Zookeeper 上的性能瓶颈问题。Distributed Cache API 类似于 Hadoop MapReduce 的同名技术,帮助把共享资源分发到集群,不再需要打包在 Jar 中,方便资源更新。HA Nimbus 弥补了 Nimbus 的单点失效问题,不再因为 Nimbus 失效而必须重部署所有 topologies。支持 Streaming Window,其长度可以按时间或者记录数配置,窗口步进也可配置,并且窗口可以重叠。支持状态管理,Bolt 可以申明自己的状态并在检查点保存,在之前这些功能只能由应用自己完成。Resource Aware Scheduler,根据 topology 申明的资源需求 (CPU 内存等) 自动分配计算节点,类似 YARN。排错和监控得到极大增强,可以动态调整 log level 并搜索分布式日志。支持动态采样 topology 和部件中流动的记录,方便调试。支持 JVM 进程的 Profiling。此外还有动态压力反馈,与各类其他系统的集成等等功能。总的来说,Storm 1.0 带来最多 16 倍的性能提升 (同时小字写道一般 3 倍左右,根据用例不同),延迟缩短 60% 以上,是一个非常成熟的分布式流处理系统。对于未来发展,个人已经想不到完善如 Storm 还有什么大块的功能,Taylor 谈到可能会增加对 Clojure 语言的支持。

Ingest and Stream Processing - What Will You Choose? 演讲

来自 Pat Patterson, StreamSets 和 Ted Malaska, Cloudera Inc。Hadoop 上的流处理系统群雄并起,到底是用 Storm 还是 Spark Streaming 还是 Flink,怎样做到 Exactly Once? Ted 把整个流程分为生产者、分发者、处理器、目的地几个部分,然后分别讨论。一个有趣的发现是如果目的地是类似 HBase 的 KV 系统,也许你根本不需要 Exactly Once,因为多次投递本来就能被消化。同时生产者也可以通过 UUID 或者时序 ID 等技巧帮助后续系统发现和排除重复记录。如果必需要靠系统保证 Exactly Once,那就来看处理器的部分。Storm 被认为是缓慢和“过时”的(现场马上有反对者的声音,并指出 Storm 1.0 刚刚发布,性能有极大提升),并且必须 Trident 配合才能实现 Exactly Once。Spark Streaming 被认为性能良好且功能丰富,开发社区非常活跃,是演讲者推荐的处理引擎。Flink 的设计看来非常完美,然而后发的劣势使它的社区体量大大不如 Spark Streaming,且功能也相对薄弱(同样现场马上也有反对的声音,表示不能把 Spark 社区和 Spark Streaming 社区混为一谈)。Kafka Streams 也是一个选择,但还非常早期,表示关注。聊完了各种竞争流处理引擎,演讲的最后 Pat 话锋一转,表示其实这些都不重要,因为有一个图形化的流处理编辑器 StreamSets,能够可视化的开发 Data Flow 并且编译到各种引擎上执行,还在现场展示了开发、部署和调试的过程,背后使用了 Kafka 和 Spark Streaming 作执行引擎。相当精彩。

Hadoop Platform at Yahoo: A Year in Review**** 演讲

来自 Sumeet Singh, Yahoo 大数据平台的 Senior Director。Yahoo 一直是 Hadoop 的大用户和贡献者,无论哪一方面,他们的工作都很有参考价值。Sumeet 先生在第二天上午的 Key Note 环节已经介绍过了 Hadoop 在 Yahoo 的最新动态,所以这次演讲更多是深入和答疑。Yahoo 部署有很多 Hadoop 集群,共享的、专有的、公网的、内网的。软件栈也非常丰富,尤其对 Pig 和 Oozie 的广泛应用是别处不多见的。去年 Yahoo 的 Research 集群经过一次整合,采用更好的硬件淘汰旧机器,节点数从一万多下降到了两千多台,集群容量提升 65%,利用率上升 50%,最重要的总持有成本下降了 40%。另一个亮点是采用 100Gbps 的 InfiniBand 网络连接 GPU 集群,提供机器学习计算能力。利用 YARN 节点标记能力,将机器学习任务发送到指定的 GPU 服务器。Yahoo 采用 CaffeOnSpark 做深度学习,一些新的用例如气象预报、Flickr 人脸识别、风景检测等等。Yahoo 集群的总计算量一直在随时间线性增长,MapReduce 任务被慢慢转换成 Tez 或者 Spark 任务,但下降的速度并不是很快,可以想见 MapReduce 将一直存在下去。Yahoo 的 Storm 集群也是数一数二的规模,有两千多台。Storm 1.0 的很多新功能都已经使用,比如多租户和 Pacemaker。最后还提到在 HBase 上实现事务 ACID 特性的新开源项目 Omid,也已经进入 Apache 孵化器阶段。

Accelerating Apache Hadoop through High-Performance Networking and I/O Technologies**** 演讲

由 Dhabaleswar K (DK) Panda, The Ohio State University 带来。从 2005 年以来,世界前 500 强的超级计算机已经越来越多由 Commodify Machine 集群组成,到今年这个比例已经达到 85%。于是很容易想到,能不能用超级计算机 (High-Performance Computer) 技术来加速我们商用的 Hadoop 集群。可以借鉴的 HPC 技术以 InfiniBand 网络技术为首,也包括 10-40Gbps 的以太网和 RoCE(RDMA over Converged Enhanced Ethernet)。这些技术可以将网络延迟缩短到 1 微妙以内,速率达到 100Gbps,并且占用非常少的 CPU(5-10%)。可惜应用起来需要抛弃现有的 Sockets 编程接口而改用 Verbs 接口。俄亥俄州立大学有一个名为 HiBD 的项目,提供改写后的 Hadoop/YARN/MapReduce,使用上述的 HPC 网络技术来提升 Hadoop 性能。有性能报告称能不同程度提速 40% 到 50% 左右。网站提供软件下载,但没有开放源码。

作者介绍:李扬,Kyligence 联合创始人兼 CTO,Apache Kylin 联合创建者及项目管理委员会成员 (PMC), 主创团队架构师和技术负责人,专注于大数据分析,并行计算,数据索引,关系数学,近似算法,压缩算法等前沿技术。曾任 eBay 全球分析基础架构部大数据资深架构师、IBM InfoSphere BigInsights 的技术负责人,负责 Hadoop 开源产品架构,“杰出技术贡献奖”的获奖者、摩根士丹利副总裁,负责全球监管报表基础架构。

2016-04-21 23:122208

评论

发布
暂无评论
发现更多内容

金融科技 | 建设中台能力,助力开放生态

xcbeyond

金融科技 中台战略 中台架构

生产环境全链路压测建设历程之九 淘宝网全链路压测的原理

数列科技杨德华

【架构师训练营 1 期】第十二周学习总结

诺乐

时序数据库DolphinDB和TimescaleDB 性能对比测试报告

DolphinDB

大数据 分布式系统 时序数据库 DolphinDB 数据库开发

浅谈产品与项目之间的爱恨情仇

随(曾铭新)

以理性不断的崇敬 - 对DDD之后复杂业务软件系统设计的思考

冯文辉

领域驱动设计 DDD 架构设计

从面试角度分析ArrayList源码

Java旅途

Java List 面试 ArrayList

公安一体化警务系统搭建,微警务APP开发

t13823115967

App 智慧公安

Mybatis是如何解析配置文件的?

田维常

mybatis

Java虚拟机科普系列—元空间Metaspace的内存结构

Java老k

Java JVM Java虚拟机 metaspace

Week_12 作业

golangboy

极客大学架构师训练营

架构师训练营第四周总结

Geek_xq

喜大普奔,FL Studio终于出官方中文版了!

懒得勤快

编曲 编曲宿主 mid flstudio 汉化

Sentinel 是如何做限流的

vivo互联网技术

高可用 限流 底层

京东智联云与CDA携手 共同打造电商领域数字化人才认证标准

京东科技开发者

大数据 数据分析 数据分析师

数据上链,区块链技术平台搭建

t13823115967

数据上链 区块链应用

新增原创标签相关改动

sean77

测试 个人 aa bb

新增原创标签相关改动

sean77

aa bb cc

【架构师训练营 1 期】第十二周作业

诺乐

我国一项物联网安全测试技术成为国际标准;Windows 10将支持安卓应用

京东科技开发者

领域驱动设计(DDD)实践之路(四):领域驱动在微服务设计中的应用

vivo互联网技术

架构 领域驱动设计 DDD 领域驱动设计DDD

一鼓作气学会“一致性哈希”,就靠这 18 张图了

四猿外

分布式 算法 一致性哈希 一致性Hash算法 哈希算法

还在手写Operator?是时候使用Kubebuilder了

Java架构师迁哥

数据类型· 第1篇《元组和列表的性能分析、命名元组》

清菡软件测试

测试开发

《逻辑和计算机设计基础》第五版(英文原版)PDF免费下载

计算机与AI

计算机基础 计算机组成原理

FORSAGE智能合约矩阵系统软件APP开发

系统开发

求求你,别再用wait和notify了!

王磊

Java

区块链发展前景广阔,要紧跟时代步伐

13828808769

区块链发展 时代发展

ReactNative | 项目复盘,涉及环境、RN版本升级、安全等方案

梁龙先森

大前端 混合应用开发 React Native

如何搭积木式的快速开发H5页面?

徐小夕

Java 大前端 React 数据可视化

Hadoop Summit 2016会场回顾(三)_大数据_李扬_InfoQ精选文章