写点什么

Apache 基金会主席 Doug Cutting 谈 Hadoop 和开源

  • 2012 年 1 月 17 日
  • 本文字数:1457 字

    阅读完需:约 5 分钟

在 2011 年 12 月 2 日举办的 Hadoop In China 2011 大会上, Apache 软件基金会主席 Doug Cutting 先生来到了中国,并做了有关开源和 Hadoop 的演讲。会前,InfoQ 中文站对 Doug Cutting 先生进行了专访。

Doug 是多个成功开源项目的创立者,包括 Lucene、Nutch 和 Hadoop。Doug 于 2009 年从 Yahoo! 加入 Cloudera,当时他所在的团队构建并部署了生产环境的 Hadoop 存储和分析集群,完成关键任务的业务分析,他是团队的主要成员。Doug 拥有斯坦福大学的学士学位,同时是 Apache 软件基金会董事会成员。

InfoQ**:Doug先生,非常欢迎您来到中国,您能先做个简单的自我介绍吗?**

Doug我叫 Doug Cutting,是一名软件开发人员,在硅谷工作多年。大概 11 年前,我开始做开源软件方面的工作。首先参与了 Lucene 搜索项目。后来,Lucene 被带到了 Apache 软件基金会中,我就在其中从事开源工作了,那是 10 年前。此后,我开始了又一个项目—— Nutch ,这也是一个 web 搜索技术;然后就是 Hadoop ,这个后来非常成功的项目。 过去 5 年左右,我一直在做 Big Data 和存储处理方面的工作。

InfoQ**:在您看来,人们使用Hadoop遇到的最大障碍是什么?您能提供一些建议让大家克服这些障碍么?**

Doug教育问题,在我看来是最大的问题。 使用 Hadoop,需要不同的思考和计算方式,现在也已经有了一些书籍和课程,能够帮大家克服这些问题。随着理解它的人越来越多,我相信传播得也会越来越快。是有一些技术上的障碍和社会层面上的障碍,不过这些问题解决起来更容易,因为技术和相关社区都在发展。但是首先人们要明白 Hadoop 背后的机制。

InfoQ**:对于大规模应用来说,监控非常重要。说到监控运行Hadoop的应用,您能列举出最重要的三个监控指标吗?还有您选择这三个的原因?**

DougHadoop 的目标是以低成本、高效率的方式来做事情。你的硬件使用率是一个很好的指标,比如 CPU 的使用率、磁盘的使用率等等,你有没有完全把资源的利用起来。

与其一起的,你还希望利用高效的算法,当然,这很难监控,需要在一开始就想清楚。一旦开始运行后,要保证所有的资源都能高效利用,有时候很困难,需要在分布式系统里的输入、输出、计算这三者之间取得平衡。这些是最底层要监控的东西。

当然,还有错误和失败等等,这些也是很重要的东西。分布式系统内的调试要更为困难。知道什么时间、哪里出了问题,此类报表对于寻找问题根源是很有帮助的。 同时,某些应用的特定报表也很重要,比如把某些运行进度报告给用户。

InfoQ:接下来是关于开源软件的问题:从技术角度看,您认为哪个开源项目将会成为下一个“超级巨星”?

Doug我想 HBase 正在不断吸引更多眼球,它在变得越来越稳定、性能越来越高效。我对于 HBase 的进展非常兴奋,我想很多机构将来都会用到它,从中获得价值。

InfoQ:您有很多开源项目方面的经验,能否介绍下您如何激励大家参与开源项目、并为其不断做出贡献?

Doug最重要的事情,是倾听其他人,试图理解他们为什么要做某些事情。我们每个人都很自然地把注意力放在自己的需要上。要想一起协作做某些事情,我们必须理解其他人的需求。所以,有礼貌地倾听、理解、接受其他人的需求,并试图找出大家可以一起工作的方式方法,这是开源项目中最重要的技能。

Doug Cutting 先生在本次大会上的两个演讲也将在不久后在 InfoQ 中文站上发布,请大家保持关注。

被采访的视频,请访问优酷版本


给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2012 年 1 月 17 日 21:235593
用户头像

发布了 479 篇内容, 共 132.4 次阅读, 收获喜欢 36 次。

关注

评论

发布
暂无评论
发现更多内容

M1 Dock智能硬件环境搭建(MaixPy安装及使用)

不脱发的程序猿

人工智能 开发板 智能硬件 AIOT M1 Dock

极光开发者周刊【No.0521】

极光开发者

2021 DevOpsDays 东京站完美收官 | CODING 专家受邀分享最新技术资讯

CODING DevOps

CI/CD DevOpsDays CODING DevOps

【Flutter 专题】122 图解自定义半遮挡头像 SeriesCircleProfile & CircleAvatar

阿策小和尚

5月日更 Flutter 小菜 0 基础学习 Flutter Android 小菜鸟

探索GaussDB(DWS)的过程化SQL语言能力

华为云开发者社区

数据库 GaussDB(DWS) SQL语言 PLSQL语言 索引表达式

这么狠,私塾在线架构师系列课程全都免费发放

InfoQ_d2212957090d

Java

NumPy之:ndarray中的函数

程序那些事

Python Numpy

☕【JVM技术之旅】你真正掌握了Java对象创建的流程吗?

浩宇天尚

JVM java对象分析 java对象 对象创建 5月日更

云计算下半场:打法已变,谁主沉浮

ToB行业头条

云计算

BMP、GIF、TIFF、PNG、JPG和SVG格式图像的特点

不脱发的程序猿

图像格式

阿里P9架构师强烈推荐:想拿60W以上年薪必看,Java高并发四套小册。

Java架构追梦

Java 阿里巴巴 架构 面试 高并发

MindSpore:不用摘口罩也知道你是谁

华为云开发者社区

算法 人脸识别 口罩 mindspore 口罩人脸

懂得取舍才是缓存设计的真谛

万俊峰Kevin

Go 缓存 cache 分布式缓存

新思科技为中兴通讯提供BSIMM软件安全评估

InfoQ_434670063458

5G 新思科技 中兴 软件安全 BSIMM

LRU 和 LFU

且听且吟

《Spring 手撸专栏》第 3 章:初显身手,运用设计模式,实现 Bean 的定义、注册、获取

小傅哥

Java spring 设计模式 小傅哥 抽象类

「技术人生」第2篇:学会分析事物的本质

阿里巴巴中间件

技术 工具 技术人 技术人生 一号位

记十亿级Es数据迁移mongodb成本节省及性能优化实践

杨亚洲(专注mongodb及高性能中间件)

MySQL 数据库 mongodb 架构 分布式数据库mongodb

2021年中国信创生态报告发布 指引未来信创产业发展

融云 RongCloud

「DataPipeline」完成数千万B轮融资,加速构建中国的世界级数据中间件产品

DataPipeline数见科技

融资

Nginx的11个执行阶段详解

运维研习社

nginx 运维 源码剖析 5月日更

并发王者课 - 青铜 3: 双刃剑-理解多线程带来的安全问题

技术八点半

Java 多线程 并发 王者并发课

iOS面试--拼多多最新iOS开发面试题

一意孤行的程序员

ios swift 面试 ios开发 知识分享

重命名表,应该怎么做?

Simon

MySQL

云小课|聊一聊DRS的数据过滤特性

华为云开发者社区

数据库 DRS 数据复制服务 数据过滤 数据库引擎

GitHub开源的AI下五子棋

不脱发的程序猿

人工智能 GitHub 开源 五子棋 AI五子棋

WizTree——一个扫描快似Everything的硬盘空间分析工具

DisonTangor

DevOps windows

技术干货 | 基于MindSpore更好的理解Focal Loss

华为云开发者社区

函数 mindspore Focal Loss 样本

Spring cloud 之熔断机制

Damon

5月日更 熔灾

聊聊dubbo协议2

捉虫大师

dubbo 协议

网络攻防学习笔记 Day24

穿过生命散发芬芳

5月日更 网络攻防

数据cool谈(第2期)寻找下一代企业级数据库

数据cool谈(第2期)寻找下一代企业级数据库

Apache基金会主席Doug Cutting谈Hadoop和开源-InfoQ