2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Apache 基金会主席 Doug Cutting 谈 Hadoop 和开源

  • 2012-01-17
  • 本文字数:1457 字

    阅读完需:约 5 分钟

在 2011 年 12 月 2 日举办的 Hadoop In China 2011 大会上, Apache 软件基金会主席 Doug Cutting 先生来到了中国,并做了有关开源和 Hadoop 的演讲。会前,InfoQ 中文站对 Doug Cutting 先生进行了专访。

Doug 是多个成功开源项目的创立者,包括 Lucene、Nutch 和 Hadoop。Doug 于 2009 年从 Yahoo! 加入 Cloudera,当时他所在的团队构建并部署了生产环境的 Hadoop 存储和分析集群,完成关键任务的业务分析,他是团队的主要成员。Doug 拥有斯坦福大学的学士学位,同时是 Apache 软件基金会董事会成员。

InfoQ**:Doug先生,非常欢迎您来到中国,您能先做个简单的自我介绍吗?**

Doug我叫 Doug Cutting,是一名软件开发人员,在硅谷工作多年。大概 11 年前,我开始做开源软件方面的工作。首先参与了 Lucene 搜索项目。后来,Lucene 被带到了 Apache 软件基金会中,我就在其中从事开源工作了,那是 10 年前。此后,我开始了又一个项目—— Nutch ,这也是一个 web 搜索技术;然后就是 Hadoop ,这个后来非常成功的项目。 过去 5 年左右,我一直在做 Big Data 和存储处理方面的工作。

InfoQ**:在您看来,人们使用Hadoop遇到的最大障碍是什么?您能提供一些建议让大家克服这些障碍么?**

Doug教育问题,在我看来是最大的问题。 使用 Hadoop,需要不同的思考和计算方式,现在也已经有了一些书籍和课程,能够帮大家克服这些问题。随着理解它的人越来越多,我相信传播得也会越来越快。是有一些技术上的障碍和社会层面上的障碍,不过这些问题解决起来更容易,因为技术和相关社区都在发展。但是首先人们要明白 Hadoop 背后的机制。

InfoQ**:对于大规模应用来说,监控非常重要。说到监控运行Hadoop的应用,您能列举出最重要的三个监控指标吗?还有您选择这三个的原因?**

DougHadoop 的目标是以低成本、高效率的方式来做事情。你的硬件使用率是一个很好的指标,比如 CPU 的使用率、磁盘的使用率等等,你有没有完全把资源的利用起来。

与其一起的,你还希望利用高效的算法,当然,这很难监控,需要在一开始就想清楚。一旦开始运行后,要保证所有的资源都能高效利用,有时候很困难,需要在分布式系统里的输入、输出、计算这三者之间取得平衡。这些是最底层要监控的东西。

当然,还有错误和失败等等,这些也是很重要的东西。分布式系统内的调试要更为困难。知道什么时间、哪里出了问题,此类报表对于寻找问题根源是很有帮助的。 同时,某些应用的特定报表也很重要,比如把某些运行进度报告给用户。

InfoQ:接下来是关于开源软件的问题:从技术角度看,您认为哪个开源项目将会成为下一个“超级巨星”?

Doug我想 HBase 正在不断吸引更多眼球,它在变得越来越稳定、性能越来越高效。我对于 HBase 的进展非常兴奋,我想很多机构将来都会用到它,从中获得价值。

InfoQ:您有很多开源项目方面的经验,能否介绍下您如何激励大家参与开源项目、并为其不断做出贡献?

Doug最重要的事情,是倾听其他人,试图理解他们为什么要做某些事情。我们每个人都很自然地把注意力放在自己的需要上。要想一起协作做某些事情,我们必须理解其他人的需求。所以,有礼貌地倾听、理解、接受其他人的需求,并试图找出大家可以一起工作的方式方法,这是开源项目中最重要的技能。

Doug Cutting 先生在本次大会上的两个演讲也将在不久后在 InfoQ 中文站上发布,请大家保持关注。

被采访的视频,请访问优酷版本


给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2012-01-17 21:236625
用户头像

发布了 479 篇内容, 共 181.1 次阅读, 收获喜欢 53 次。

关注

评论

发布
暂无评论
发现更多内容

稳居第一,实至名归!

天翼云开发者社区

云服务

AI 赋能的故障排除:技术趋势与实践

不在线第一只蜗牛

人工智能

重塑AI算力底座!阿里云服务器操作系统V4正式发布

新消费日报

Coze开源本地部署教程

测吧(北京)科技有限公司

人工智能 软件测试 测试开发 Coze开源

黑客正积极利用PaperCut旧漏洞

qife122

网络安全 PaperCut

WAIC 2025重磅!天翼云发布算网一体服务!

天翼云开发者社区

人工智能

智能化测试基础架构

测吧(北京)科技有限公司

人工智能 软件测试 测试开发 agent

汽车线束行业AI智能化MES解决方案:推动智能制造与质量升级

万界星空科技

mes 汽车线束行业 汽车线束mes 制造业转型 智能化MES

如何安装DashVector向量检索服务SDK

DashVector

数据库 大数据 AI 大模型

重复文件查找工具:DataSecurity Plus 全面提升企业文件管理效率

运维有小邓

重复文件查找工具

高效掌控全局,安全运筹帷幄:鸿蒙电脑大屏理财,商务精英必备!

最新动态

慢查询日志在性能优化中的价值

电子尖叫食人鱼

性能优化

智能汽车,不只是造出来的,更是“拟”出来的

DevOps和数字孪生

智能汽车 数字样机

超强组合!Dify+Milvus构建生产级RAG系统的终极指南

阿里云大数据AI技术

人工智能 云计算 大数据 Milvus dify

跟复旦硕士聊了1小时,没想到这些基础题他居然也栽了

王中阳Go

Go 后端 模拟面试

Gemini 2.5模型重大升级:更智能的AI技术

qife122

深度学习 AI

AWS高级解决方案架构师黄海波:GenAI 时代非结构化数据处理的实践与趋势洞察

数新网络官方账号

社交媒体上舆情监测的“微爆点”:如何识别和干预?

沃观Wovision

舆情监测 海外舆情监控 沃观Wovision 舆情监测系统

10分钟无痛部署!字节Coze开源版喂饭教程

测试人

【直播预约】天翼云如何通过 DolphinScheduler 实现大数据自动化与全链路血缘,探索实践亮点!

白鲸开源

大数据 技术分享 Apache DolphinScheduler 天翼云 血缘关系

基于深度学习的YOLO框架实现金属工业表面缺陷识别|开箱即用系统级项目(源码+模型+界面)

程序员Geek

人工智能

多分支注意力机制提升表格数据建模效果

qife122

机器学习 表格数据

中烟创新自研【烟草专卖执法案卷评查系统】入选“北京市人工智能赋能行业发展典型案例”

中烟创新

2025可信数据库发展大会召开,天翼云TeleDB领航核心系统创新实践!

天翼云开发者社区

数据库

突破上下文限制!8大AI记忆优化策略全解析

聚客AI学院

人工智能 agent LLM 大模型落地 AI 智能体

研发效能的下一站:AI是否会让你“无事可做”?

思码逸研发效能

研发效能 效能度量 效能管理 智能编程 思码逸

手把手玩转本地大模型:Ollama+DeepSeek+Dify 零门槛全流程指南

测试人

软件测试

行业预测:海外舆情监测系统将成为下一个出海必备工具

沃观Wovision

出海企业 海外舆情监控 沃观Wovision 舆情监测系统

2025-07-31

Joseph295

孙宇晨的而立之年:争议未远,传奇已立

极客天地

全球AI大模型综合排名(Top 20)

测吧(北京)科技有限公司

人工智能 软件测试 测试开发

Apache基金会主席Doug Cutting谈Hadoop和开源_开源_郑柯_InfoQ精选文章