Data+AI时代,如何打造下一代数智平台? 了解详情
写点什么

国内首家!主导 Apache Hadoop 新版本发布的,是腾讯云这位小哥哥

  • 2018-06-13
  • 本文字数:1991 字

    阅读完需:约 7 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

近日,腾讯主导的 Apache Hadoop2.8.4 最新版本发布,为国内科技公司在国际开源领域的探索迈出重要一步。

2006 年 Apache Hadoop 发布,2008 年 Hadoop 成为 Apache 顶级项目。在那时,中国移动、百度、淘宝等都已经开始使用 Hadoop 技术。Hadoop 现在早已成为 Apache 软件基金会的金牌项目之一。不仅如此,它还孕育了包括 HBase、Hive、ZooKeeper 等一系列知名 Apache 顶级项目,它们一开始都是以 Apache Hadoop 子项目的形式在社区运作、为开发者熟知的。

这次腾讯主导发布的 Apache Hadoop2.8.4 版本,涉及 20 多个大大小小的特性和优化,清单如下:

负责这一版本整体进度的Release Manager,是来自腾讯云产品部大数据及人工智能产品中心的专家研究员堵俊平,他同时也是Apache Hadoop 社区PMC 的成员。

Apache 软件基金会推崇 PMC 制度,每个开源项目都是一个 PMC,即项目管理委员会,可以自行决定技术发展方向和社区运作模式,但需要公开信息,并定期向 Apache 的董事会汇报,以便董事会监督。

成为 PMC 的成员可是非常不容易的事,必须要一步步“打怪升级”。要实现从一个普通的 Developer 到 PMC Member 的跨越,除了码代码以外,开源社区的组织能力也要强,是不是帅呆了?

堵俊平

腾讯 T4 大数据技术专家,曾任 EMC,VMware 资深研发工程师,Hortonworks 美国 YARN 团队负责人。深耕云计算,大数据方向 10 余年,在多个社区均享有极高知名度,包括 Apache Hadoop 社区 Committer & PMC,并领导 hadoop 2.6、2.8 等应用非常广泛的社区 release。曾领导开发多个 Hadoop 在云平台上优化与拓展的项目与产品。目前在腾讯致力于领导腾讯云大数据及人工智能产品研发工作。

小编采访了一下这位男神,接下来就让他给大家讲一下,这次新版本发布过程中的小细节吧。

很多人可能听说过“开源”,但了解不多,您可以简单介绍一下吗?

A:开源可以理解为“向公众开放源代码”。近几年来热度不减的大数据,就是由开源的软件来驱动整个产业生态的。这里就不得不提到一个里程碑式的开源产品——hadoop:从谷歌的三篇论文,到雅虎的 hadoop,开启了如今的大数据时代。

过去的系统软件主要是由闭源软件来驱动的。虽然像操作系统涌现出 Linux 这样优秀的软件,但后面的数据库和应用服务器,仍然几乎都是从闭源产品去驱动的。

hadoop 诞生后的这十年来,一直都是大数据生态的核心,它改变了以往的软件形式,成为了最主流的开源项目之一。现在基本上各家数据平台团队,都是在 hadoop 生态系统上小修小改,去支持大数据相关的业务系统,可以认为它是开源的一个标准吧。

与传统的闭源生态相比,开源有什么好处呢?

A:首先是避免“重复发明轮子”的问题,不同的个人和团体可以在公开的代码平台上集体创作,而不是封闭起来做重复的事情。其次是用户不必被绑架在特定的软件平台上,随时可以迁移应用和数据。最后是核心知识产权,比如以前的 IOE,不只是没有“中国芯”的问题,上面的应用软件和系统软件可能随时面临被人封锁的危险,而开源就不会有这个问题,它完全公开透明。另外,开源也鼓励公司规划长线的技术投资,而不只是短线的利益操作。

腾讯这次主导阿帕奇社区 hadoop 新版本的发布,在国内算是首次吗?

A:对,以前都是由微软、Hortonworks 和 Cloudera 等国外大数据厂家轮流坐庄,而这个版本是第一次完全由国内的公司来支持的。从技术号召力或者对整个开源社区的影响力来说,可以鼓励国内的开发者和公司更积极地参与开源项目贡献,勇于承担更大的责任,更多地回馈开源社区。

给整个社会也带来了哪些积极的影响呢?

A:首先,大数据软件属于基础技术,这次平台是由腾讯做技术主导的,在国内算是一个突破。其次,对于开发者社区来说,也是比较可靠的一个社区、最热门的项目。

最后,对于普通人来说,也是可以从中受益的。因为基础平台能力的提高,也伴随着数据处理能力的提高,可以让大家的生活更方便。大数据时代到来之前,可能没有那么多面向数据的业务,比如地图业务、O2O 业务、智能推荐系统等等。包括现在极具话题性的 AI 人工智能,如果没有大数据平台的进步,也是发展不起来的。

之前是有技术难关的限制吗?

A:过去十年,中国的互联网公司发展很快,大家都以追求业务为主,在技术或开源方面做得不够,这是我们相较西方的短板。国内很多公司其实也尝试过开源,但它只有开源的代码,没有开源的社区,也就是自己觉得某个产品做得不错,就把源代码开放出来而已。

源代码的开放和开源社区是两回事,区别就是你这个开源的代码,其它第三方(尤其是你的生态合作伙伴)有没有能力来参与。

现在整个大数据的热潮,其实就是被几款开源的核心软件所推动的。中国的这些大公司在具备了经济实力之后,也开始以开源为手段想要构造一个更好的生态。这可能需要一个过程,但大家已经慢慢意识到这些基础软件跟开源结合的重要性了。

2018-06-13 07:321958
用户头像

发布了 25 篇内容, 共 17.9 次阅读, 收获喜欢 11 次。

关注

评论

发布
暂无评论
发现更多内容

爱情,婚姻,与AI

脑极体

《全国移动App第二季度安全研究报告》

InfoQ_11eaedef67e9

网络安全 移动安全 个人信息安全 APP安全

星云矿工fil分币系统软件开发

获客I3O6O643Z97

fil币 星际联盟fil矿机靠谱吗

filecoin云算力系统开发案例解析

获客I3O6O643Z97

挖矿矿池系统开发案例 fil币 fil矿机和云算力

基于Jena的知识推理

华为云开发者联盟

推理 知识推理 Jena 推理引擎 RDF图

云图说|ROMA演进史:一个ROMA与应用之间不得不说的故事

华为云开发者联盟

华为云 应用 ROMA 云图说 应用使能

队列Queue:任务间的消息读写,安排起来~

华为云开发者联盟

鸿蒙 数据结构 队列 Queue 消息

英特尔陈伟:AIoT时代的新思维

E科讯

如何包容他人的多样性

escray

学习 极客时间 朱赟的技术管理课 7月日更

Axie区块链宠物游戏系统开发搭建

薇電13242772558

区块链

OGC标准WMTS服务概念与地图商的瓦片编号流派-web地图切片加载

zhoulujun

GIS 瓦片地图 地图瓦片服务 WMTS

CRUD搬砖两三年了,怎么阅读Spring源码?

小傅哥

Java spring 小傅哥 源码学习 框架学习

Redis 帝国的神秘使者,竟然想改造 C 语言!

悟空聊架构

redis 架构 悟空聊架构 7月日更 用故事讲技术

爬虫入门到放弃04:爬虫=犯罪?对不起,我对钱没有兴趣

叫我阿柒啊

爬虫 robots.txt

架构实战营模块三作业

maybe

灵活运用分布式锁解决数据重复插入问题

vivo互联网技术

分布式锁 服务器 并发

教你如何将二进制文件导入到数据库

华为云开发者联盟

数据库 数据 二进制 GaussDB(DWS) 二进制文件

2021 挚物·AIoT产业领袖峰会召开,EMQ 映云科技喜获双料荣誉

EMQ映云科技

百度 华为 工业互联网 AIOT 边云协同

微软亚研院:如何看待计算机视觉未来的走向?

百度开发者中心

最佳实践 方法论 计算机视觉 语言 & 开发 文化 & 方法

web自动化测试(2):选择selenium优势?与PhantomJS/QTP/Monkey对比

zhoulujun

自动化测试 web测试 UI测试 界面测试 页面测试

web自动化测试(3):web功能自动化测试selenium基础课

zhoulujun

自动化测试 selenium UI测试 界面测试

当女性撰写科技新闻,她在报道什么?

脑极体

Python OpenCV Sobel 算子、Scharr 算子、laplacian 算子 复盘学习

梦想橡皮擦

Python 7月日更

关于线程的执行顺序,可能真的只是你以为的你以为

华为云开发者联盟

Java 线程 多线程 Thread 任务调度

数据,流通在没有船的港口

白洞计划

大数据训练营 -0718课后作业

cc

技术上的过度医疗

superman

过度设计 完美方案

三十岁,像培养孩子一样培养自己。

南冥

Go语言:SliceHeader,slice 如何高效处理数据?

微客鸟窝

Go 语言

钻石01:明心见性-如何由表及里精通线程池设计与原理

MetaThoughts

Java 多线程 并发

Python开发篇——构建虚拟Python开发环境(Conda+Poetry)

吴脑的键客

Python Anaconda

国内首家!主导Apache Hadoop新版本发布的,是腾讯云这位小哥哥_开源_云加社区_InfoQ精选文章