【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

雅虎! 来自 Hadoop 峰会的最新更新

  • 2010-07-15
  • 本文字数:1557 字

    阅读完需:约 5 分钟

雅虎首席产品官 Blake Irving 吹响了 2010 Hadoop 峰会的呜呜祖啦 (2010 南非世界杯助威工具) 雅虎发表的主题演讲阐述了他们的使用规模,贡献的技术方向,以及他们如何应用这项技术的架构模式。

显而易见, Hadoop 受到越来越多的关注:今年的会议有 1000 人参加并且门票在会前 10 天就告售罄,人数较前年的 300,去年的 650 有大幅的增长。Java 之父,James Gosling 也参加了该会议。这次会议标志着 Hadoop 5 周年(大约)。Irving 指出世界上只有 5% 的数据是结构化的,而非结构化数据一直保持极大的增长,这些新产生的数据的特点是更多的瞬时性。他强调 Yahoo 使用 Hadoop 来分析每一个页面点击并优化内容的排名,每 7 分钟更新一次结果。他指出“我们相信 Hadoop 已经为主流企业的应用做好了准备”。

雅虎的云计算高级副总裁,Shelton Shugar 指出,雅虎每天为 1000 亿事件产生 120TB 数据输入,目前储存了 70PB, 而其最高存储容量是 170PB。雅虎每天处理 3PB 数据,每个月在 38000 台服务器上运行超过百万个任务。由于雅虎的 Hadoop 的使用范围不断扩大,他们已经需要为主流应用程序员作为准备,建立支持提供和更好的管理工具和数据安全。他指出,雅虎在生产环境中将 Hadoop 应用于各种产品:

  • 数据分析
  • 内容优化
  • 雅虎公司反垃圾邮件
  • 广告产品
  • 广告优化
  • 广告选择
  • 大数据处理和 ETL

雅虎还在其应用科研中大量使用 Hadoop,比如:

  • 用户兴趣预测
  • 广告库存预测
  • 搜索排名
  • 广告定位
  • 垃圾邮件过滤

Eric Baldeschwiele,雅虎 Hadoop 软件开发副总裁指出,在去年雅虎已经:

  • 把他们的集群从每个 2000 节点增加到 4000 个节点
  • 受惠于摩尔定律带来的 CPU 计算能力增加,每个节点的任务数翻了一倍
  • 现在有超过 80%的磁盘利用率,通常 50-60%的 CPU 使用率,并且数据使用的增长速度高于处理使用
  • 贡献了超过 70%的 Hadoop 补丁

他们在去年的重点是改善 Hadoop 的 map-reduce, 这包括:

  • 一个新的容量调度程序
  • 任务跟踪的稳定性和支持混合工作负载的健壮性
  • 增加资源的使用的限制:安全围栏 (safety rails)

现在他们的重点是开发 Hadoop 的分布式文件系统,HDFS:

  • 在他们的每一个集群节点的存储现在是 12TB。他们现正兴建一个 48PB 的集群 - 由于 Name 节点可伸缩性的限制,“这对 Hadoop 来说是颠覆性的 “
  • 提高内存,连接和缓冲区的使用,并提供度量的体系。
  • 把存储拆分成一组文件卷集(使用多个 HDFS 集群)
  • 在 Hadoop 的下一个主要版本将会发布跨 HDFS 实例的联合存储

Baldeschwieler 解释雅虎如何个性化他们的主页:

  • 实时服务系统使用 Apache 从数据库中读取从 user 到 interest 的映射
  • 每隔 5 分钟,他们使用生产环境中的 Hadoop 集群基于最新数据重新排列内容,并每 7 分钟更新结果
  • 每个星期,他们在 Hadoop 科研集群上重新计算他们关于类别的机器学习模式

雅虎 Mail 以类似的方式使用 Hadoop:

  • 在生产集群上频繁根据垃圾邮件模式为邮件计分
  • 每隔几个小时在科研集群上训练反垃圾邮件模型。
  • 该系统每天推动 50 亿次的邮件投递,覆盖了 4.5 亿个邮箱

因为 HDFS 有一个单点故障(Name 节点),这对高可用性生产系统来说是个风险。为了减轻该风险,雅虎将数据复制到多个群集,因此分布式文件系统的中断可以使用备份文件系统来弥补和解决。在雅虎的演讲中, 除了自己的 Pig 项目,他们表示正在使用 Hadoop 的 Hive 项目。

Baldeschwieler 宣布,雅虎已经发布了 Hadoop Security 的 Beta 测试版,它使用 Kerberos 进行身份验证,并允许在同一集群托管商业敏感数据。他们还发布了 Oozie ,一个 Hadoop 的工作流引擎,这已在雅虎成为事实上的 ETL 标准。它集成了 MapReduce,HDFS,Pig 和 Hadoop Security。

总体而言,雅虎展示了其在 Hadoop 技术的持续领导地位,与此同时他们感到高兴的是,领先的互联网公司和独立技术供应商纷纷加入到了这一生态系统当中来。

查看英文原文: Yahoo! Updates from Hadoop Summit 2010

2010-07-15 02:223289
用户头像

发布了 42 篇内容, 共 17.1 次阅读, 收获喜欢 4 次。

关注

评论

发布
暂无评论
发现更多内容

打造自己的Android常用知识体系,android音视频开发面试

android 程序员 移动开发

掌握Android和Java线程原理上,跨平台移动开发工具

android 程序员 移动开发

插件化&热修复系列——ClassLoader方案设计,开源至上

android 程序员 移动开发

我懵了,面试大厂被熟悉的App启动流程和RecycleView连环三问坑了

程序员 移动开发

揭秘 Android 百万开发被迫转行背后的残酷真相,只是你没找对方向罢了

android 程序员 移动开发

搞Android开发为什么这么难?想哭了!,kotlin中文

android 程序员 移动开发

我的Android 求职简历,二本渣校,靠这份简历拿下BATJ等15家大厂Offer

android 程序员 移动开发

我把阿里、腾讯、字节跳动,flutter插件化

android 程序员 移动开发

技术迭代迷茫?Android资深架构师教你如何打破这个局面!

android 程序员 移动开发

拔刀金九银十:2020年最新BAT大厂 Android 面试知识点,安卓开发入门到精通

android 程序员 移动开发

换个姿势,带着问题看Handler,android应用程序开发的流程

android 程序员 移动开发

我怎么感觉全世界都在劝退学Android的程序员?,从外包月薪5K到阿里月薪15K

android 程序员 移动开发

我的副业已经成为了我的主业,Android软件开发面试题

android 程序员 移动开发

抱着试一试的心态,没想到还真被录用了!年后我收到的第一个offer

android 程序员 移动开发

我敢打赌!你从未见过如此简单的Dagger-导航---基于-Android-Studio-4-1

android 程序员 移动开发

我是如何在一晚上拿到阿里巴巴Android研发offer的?,三年经验Android开发面经总结

android 程序员 移动开发

我草-28岁就年薪百万??直到我看到这个Alibaba Android技术图谱

android 程序员 移动开发

手把手讲解-一个复杂动效的自定义绘制2,html5移动端开发框架

android 程序员 移动开发

拥抱-Koin,放弃-Dagger吧!,android开发技术难点

android 程序员 移动开发

插件化框架解读之Android-资源加载机制详解(二),kotlin语法印章类

android 程序员 移动开发

我是怎么把业务代码越写越复杂的 _ MVP - MVVM - Clean Architecture

android 程序员 移动开发

手把手讲解--性能优化案例(2)app卡顿优化,androidsdk开发封装

android 程序员 移动开发

手把手讲解IPC框架,成为一名合格Android架构师

android 程序员 移动开发

手撕专有钉钉Android面试题完全指南,安卓开发入门书籍

android 程序员 移动开发

拿来吧你,Compose尝鲜初体验!,Android开发真等于废人

android 程序员 移动开发

插件化库VirtualAPK详解,你头秃都没想到还能这样吧

android 程序员 移动开发

插件化框架解读之android系统服务实现原理(五),毕业工作5年被裁

android 程序员 移动开发

手把手教你打通车载蓝牙与手机app的音频信息传输&车载反向控制手机app

android 程序员 移动开发

把Flutter扩展到微信小程序端的探索,androidstudio汉化

android 程序员 移动开发

插件化框架解读之Class文件与Dex文件的结构(一),Android详解

android 程序员 移动开发

手撕专有钉钉Android面试题完全指南(1),2021年网易Android岗面试必问

android 程序员 移动开发

雅虎! 来自Hadoop峰会的最新更新_架构_Ron Bodkin_InfoQ精选文章