写点什么

Apache 基金会主席 Doug Cutting 谈 Hadoop 和开源

  • 2012-01-17
  • 本文字数:1457 字

    阅读完需:约 5 分钟

在 2011 年 12 月 2 日举办的 Hadoop In China 2011 大会上, Apache 软件基金会主席 Doug Cutting 先生来到了中国,并做了有关开源和 Hadoop 的演讲。会前,InfoQ 中文站对 Doug Cutting 先生进行了专访。

Doug 是多个成功开源项目的创立者,包括 Lucene、Nutch 和 Hadoop。Doug 于 2009 年从 Yahoo! 加入 Cloudera,当时他所在的团队构建并部署了生产环境的 Hadoop 存储和分析集群,完成关键任务的业务分析,他是团队的主要成员。Doug 拥有斯坦福大学的学士学位,同时是 Apache 软件基金会董事会成员。

InfoQ**:Doug先生,非常欢迎您来到中国,您能先做个简单的自我介绍吗?**

Doug我叫 Doug Cutting,是一名软件开发人员,在硅谷工作多年。大概 11 年前,我开始做开源软件方面的工作。首先参与了 Lucene 搜索项目。后来,Lucene 被带到了 Apache 软件基金会中,我就在其中从事开源工作了,那是 10 年前。此后,我开始了又一个项目—— Nutch ,这也是一个 web 搜索技术;然后就是 Hadoop ,这个后来非常成功的项目。 过去 5 年左右,我一直在做 Big Data 和存储处理方面的工作。

InfoQ**:在您看来,人们使用Hadoop遇到的最大障碍是什么?您能提供一些建议让大家克服这些障碍么?**

Doug教育问题,在我看来是最大的问题。 使用 Hadoop,需要不同的思考和计算方式,现在也已经有了一些书籍和课程,能够帮大家克服这些问题。随着理解它的人越来越多,我相信传播得也会越来越快。是有一些技术上的障碍和社会层面上的障碍,不过这些问题解决起来更容易,因为技术和相关社区都在发展。但是首先人们要明白 Hadoop 背后的机制。

InfoQ**:对于大规模应用来说,监控非常重要。说到监控运行Hadoop的应用,您能列举出最重要的三个监控指标吗?还有您选择这三个的原因?**

DougHadoop 的目标是以低成本、高效率的方式来做事情。你的硬件使用率是一个很好的指标,比如 CPU 的使用率、磁盘的使用率等等,你有没有完全把资源的利用起来。

与其一起的,你还希望利用高效的算法,当然,这很难监控,需要在一开始就想清楚。一旦开始运行后,要保证所有的资源都能高效利用,有时候很困难,需要在分布式系统里的输入、输出、计算这三者之间取得平衡。这些是最底层要监控的东西。

当然,还有错误和失败等等,这些也是很重要的东西。分布式系统内的调试要更为困难。知道什么时间、哪里出了问题,此类报表对于寻找问题根源是很有帮助的。 同时,某些应用的特定报表也很重要,比如把某些运行进度报告给用户。

InfoQ:接下来是关于开源软件的问题:从技术角度看,您认为哪个开源项目将会成为下一个“超级巨星”?

Doug我想 HBase 正在不断吸引更多眼球,它在变得越来越稳定、性能越来越高效。我对于 HBase 的进展非常兴奋,我想很多机构将来都会用到它,从中获得价值。

InfoQ:您有很多开源项目方面的经验,能否介绍下您如何激励大家参与开源项目、并为其不断做出贡献?

Doug最重要的事情,是倾听其他人,试图理解他们为什么要做某些事情。我们每个人都很自然地把注意力放在自己的需要上。要想一起协作做某些事情,我们必须理解其他人的需求。所以,有礼貌地倾听、理解、接受其他人的需求,并试图找出大家可以一起工作的方式方法,这是开源项目中最重要的技能。

Doug Cutting 先生在本次大会上的两个演讲也将在不久后在 InfoQ 中文站上发布,请大家保持关注。

被采访的视频,请访问优酷版本


给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2012-01-17 21:236583
用户头像

发布了 479 篇内容, 共 179.4 次阅读, 收获喜欢 53 次。

关注

评论

发布
暂无评论
发现更多内容

智慧联防系统

深圳亥时科技

定义工业生产新范式!网易灵动发布全球首款全域智能无人装载机“灵载”

网易伏羲

网易伏羲 具身智能 网易灵动 无人装载机 装载机器人

思维导图用什么软件做?10个主流的导图工具集

职场工具箱

人工智能 思维导图 在线白板 AIGC 思维导图软件

工业管理 项目管理经验总结(14)

万里无云万里天

项目管理 工厂运维

直播预告:Mooncake 如何破解成本、吞吐与长上下文困局? |《AI 进化论》第五期

OpenAnolis小助手

开源 操作系统 Mooncake 大模型推理 AI进化论

解锁 Windows Server 2025 日志的深入可见性与洞察

运维有小邓

日志管理 日志审计 #日志分析

获取电商平台电子面单 API 打印配置接口:从准备到落地的全流程指南

快递鸟

藏在能耗数据里的 “省钱密码”,MyEMS 帮你一一解锁不止节能,更是 “碳管理利器”!

开源能源管理系统

开源 开源能源管理系统

AI百舸争流时代,华为如何帮助行业破浪前行?

脑极体

AI

赋值语句

Miracle

DataLab 平台亮相 MAIC 2025医学人工智能大会,和鲸助力同济医院构建医学 AI 科研新基础设施

ModelWhale

医学+AI 医学人工智能 华中科技大学附属同济医院 医学人工智能大会 MAIC

打破AI孤岛:CIO集成实战指南

qife122

人工智能 数据治理

构建终极家庭实验室NUC集群 - 第三部分:Docker自动化与媒体堆栈

qife122

Docker 媒体服务器

UniverAI平台让医药代表销售不再“翻资料”,合规更能非常高效

UniverAI智宇苍穹

AI 基础设施 企业级AI工程化 AI平台 UniverAI

再见 greenplum_path.sh,你好 cloudberry-env.sh

酷克数据HashData

微软SSO集成中的顺序用户ID身份验证绕过漏洞剖析

qife122

网络安全 单点登录 漏洞挖掘

我和AI一块做了个社交网页玩

Lemoon Can

实用的改进

Miracle

Pi Network创始人Dr. Chengdiao Fan将发表演讲,探讨加密货币现实应用

股市老人

跨平台一键登录验证的技术实践:第三方认证多终端兼容方案解析

MobTech袤博科技

登录验证

IT资产管理内容有哪些?-ManageEngine卓豪

ServiceDesk_Plus

ManageEngine卓豪

小企业切入AI 一体机市场还有机会吗

慢点科技SlowTech

可灵活定制的切片规则,才是RAG能够精准的核心关键

UniverAI智宇苍穹

rag 企业级AI基础设施 RAG应用 UniverAI 智宇苍穹

免费≠将就!真正能打的招聘系统长这样!

AI得贤招聘官

全国文旅AI整活儿,意外暴露了百度搜索的AIGC创意能力

脑极体

AI

从 “被动耗能” 到 “主动优化”:MyEMS 开启商业建筑能源管理 “新范式”

开源能源管理系统

开源 开源能源管理系统

开放、协同,2025 云栖大会“操作系统开源与 AI 进化分论坛”精彩回顾

OpenAnolis小助手

开源 操作系统 云栖大会 龙蜥社区

【RFID工具智能货架选购指南】适合仓库管理的品牌有哪些?

斯科信息

斯科信息 深科物联 RFID工具货架 RFID智能货架

MongoDB到关系型数据库:JSON字段如何高效转换?

谷云科技RestCloud

MySQL 数据库 mongodb ETL 数据集成平台

决战大促之夜:订单洪峰下的“数据速递”如何不宕机?

谷云科技RestCloud

数据处理 数据传输 数据集成平台 ipaas 订单同步

飞跃海峡:鲲鹏凿开算力的“米迪运河”

脑极体

AI

Apache基金会主席Doug Cutting谈Hadoop和开源_开源_郑柯_InfoQ精选文章