写点什么

林昊谈 HBase 技术在淘宝中的应用

  • 2011-07-10
  • 本文字数:1648 字

    阅读完需:约 5 分钟

在 7 月 9 日~10 召开的淘宝技术嘉年华期间,InfoQ 编辑有幸采访到淘宝数据平台开发团队的技术专家林昊(新浪微博 @bluedavy ),和他就 HBase 的特性,HBase 在淘宝中的应用,目前数据领域大家讨论的焦点和发展趋势进行了探讨。

InfoQ:HBase 主要有哪些特性,是什么让它备受推崇,让 Facebook 也采用它?

林昊:Facebook 是 Cassandra 的发起者,他们就想在自己的 Message 体系里面应用它,但是研究之后发现,Cassandra 的弱一致性会让它的 Message 体系在应用层上做很多的改造,它觉得付出的成本太大了,所以后来就选择测试了一下 HBase。发现 HBase 的强一致性给他们带来很多的便利,因为 HBase 只需要增加新的机器就可以增加写的吞吐量,对于他们的场景来说会非常的适合的。这也促使它们最终决定采用 HBase。

InfoQ:目前 HBase 主要帮助淘宝解决了哪些主要的问题?

林昊:其实对于很多互联网公司来说,他们对关系型数据库要求并不是那么高,比如 Join、报表的事务等,如果抛弃掉这些特性的话,换成 NoSQL,我们发现整个存储结构会很简单,读写的性能也会好很多。这一点对于我们来说还是很有吸引力的,否则随着数据量的增长,我们不得不疲于奔命去做分库分表等。

举几个简单的场景来说明一下吧。虽然我们现在基于 HBase 上线的产品还不是很多,但是很快大家用到的许多功能都会用到 HBase,比如现在用户经常去淘宝上查看已经买到的宝贝,或者去查过去三个月里自己买了多少东西等。还有就是以后淘宝用户每登录一次,系统都会自动跟踪你的行为,并做出分析,以便更好地为用户服务,这些数据也会被存储到 HBase 里面做实时的分析。包括广告的分析,也会基于 HBase 来做。

InfoQ:在你们使用 HBase 的过程中,遇到了哪些挑战?

林昊:对于我们来说,主要是 HBase 对于很多 Online 的场景支持的不够,比如 Online 项目通常会需要一些查询条件,对于我们来讲会有一些痛苦,所以我们就尝试使用 HBase 的一些三维有序存储来解决这类问题,从现在的测试结果来看还可以。另外就是 Namenode 的单点方案也不是很好用,因为一旦这个点出问题,整个系统可能都会有问题。所以我们现在有成员也在做 Namenode 的多点方案。除此之外,HBase 给运维也带来一些挑战。

InfoQ:如果有其他团队采用 HBase 技术,你会提供什么建议?

林昊:其实现在使用 HBase 的话,对应用层要求还是挺高的,所以如果需要采用 HBase 的话,还是建议要多了解一下 HBase 的特性,比如你的 Row Key 设计要很合理。如果你要做二级索引的话,在应用层也要做一些相应的工作,需要知道 HBase 是三维有序存储的。

InfoQ:根据你的了解,目前在数据领域大家讨论的焦点和趋势是什么?

林昊:其实随着互联网公司发展的年数越来越多,上网的用户也越来越多,最终一定会使数据量会越来越大。对于淘宝来说也是这样,随着数据量的增大,我们的数据存储成本也越来越高,我们会考虑一些简单的方案,更低成本的方案来解决。另外搜索也是很重要的,因为我们要从这么大的数据量里面很快地搜索出我们需要的东西。以前我们可能会用数据库来解决,但随着量越来越大,方案会越来越复杂,最终可能会造成存储和检索会非常的热。

其实从今年也可以看得出,NoSQL 的很多产品还是为了解决海量数据的问题。另外就是分析的问题是一直就存在的,现在的分析基本还是基于 Hadoop、MapReduce 的思想来做,后面的话可能更多地是离线的分析。但是对于实时的分析要求也很高,比如让推荐变成实时,效果会好很多。所以我认为,分析也会是一个大家热衷讨论的话题。

除了上面谈到的这些问题,InfoQ 还就淘宝在使用 HBase 技术之前所作的调研,对 HBase 的性能测试结果,HBase 需要改进的地方等和林昊进行了深入探讨,在 InfoQ 随后发布的视频文件中会包括这些问题。另外在本次的淘宝技术嘉年华上,InfoQ 还就 HTML5、移动开发、测试、海量数据架构、交互设计等话题采访了相关的专家,并录制了部分演讲视频,整理好后都会发布在 InfoQ 网站上,请大家保持对 InfoQ 的关注,或者关注 InfoQ 新浪微博( @InfoQ ),第一时间了解这些内容的发布情况。

2011-07-10 22:5712110

评论

发布
暂无评论
发现更多内容

大数据开发之数据读取—Pandas vs Spark

@零度

大数据 spark pandas

Linux一学就会之Centos8软件包的管理和安装之yum管理软件包

学神来啦

Linux centos 运维 rpm yum

【分布式技术专题】「OSS中间件系列」Minio的Server端服务的架构和实战搭建

码界西柚

OSS Minio Minio 集群 12月日更 FS

基于HTML、CSS和JS的年龄计算器

海拥(haiyong.site)

html 大前端 28天写作 签约计划第二季 12月日更

【讲坛实录】知识图谱的探索与应用

星环科技

知识图谱

和合共赢,DataPipeline与麒麟软件完成产品兼容性互认证

DataPipeline数见科技

中间件 数据库中间件

Smack库 XMPP Tigase异常SASLErrorException

Changing Lin

12月日更

编程谜题:提升你解决问题的训练场

华为云开发者联盟

Python 编程 编程语言 代码 编程谜题

服务端质量保证体系(一) 全流程规范管理

homber

服务端 流程 质量保证 签约计划第二季

会用泛型,但你知道什么是泛型的类型擦除吗?

码农参上

Java泛型 签约计划第二季

Redis 核心知识点归纳总结,从根上理解 Redis

码哥字节

redis Redis 核心技术与实战 签约计划第二季

少儿春晚表演

Tiger

28天写作

企业如何做好员工安全意识提升

腾讯安全云鼎实验室

为什么要做团建TB?(6/28)

赵新龙

28天写作

基于HTML、CSS、JS的小游戏/工具制作过程及完整源码

海拥(haiyong.site)

28天写作 内容合集 签约计划第二季 12月日更 技术专题合集

Python代码阅读(第67篇):获取列表中的去重后的元素

Felix

Python 编程 列表 阅读代码 Python初学者

开源机器学习数据库OpenMLDB贡献者计划全面启动

第四范式开发者社区

第四范式 开源社区 OpenMLDB 机器学习数据库 贡献者

Go语言学习查缺补漏ing Day3

恒生LIGHT云社区

Go 编程语言

「Oracle」Oracle 数据库备份还原

恒生LIGHT云社区

数据库 oracle

服务端质量保证体系(三) CI原子能力建设

homber

ci 服务端 质量保证 签约计划第二季

2021 China DevOpsDays演讲实录

homber

DevOps DevOpsDays 签约计划第二季

使用Harbor作为Rainbond默认容器镜像仓库,扩展Rainbond镜像管理能力

北京好雨科技有限公司

2021商业评论管理行动力峰会

大咖说

商业 直播

服务端质量保证体系(二) 流水线标准化建设

homber

服务端 CI/CD 流程 质量保证 签约计划第二季

QA进阶成长感悟录

homber

成长 内容合集 签约计划第二季

星环科技 TDH8.1.0:全新升级为用户带来极致体验

星环科技

大数据

一文讲透数仓临时表的用法

华为云开发者联盟

数据库 sql Local GaussDB(DWS) 临时表

春松客服入驻Rainbond开源应用商店

北京好雨科技有限公司

恒源云(GPUSHARE)_云GPU服务器如何使用PyCharm?

恒源云

深度学习 gpu 算力加速

Apache ShenYu源码阅读系列-注册中心实现原理之Http注册

子夜2104

换个角度思考勒索攻击事件

华为云开发者联盟

漏洞 勒索 攻击 安全检测 蜜罐检测

林昊谈HBase技术在淘宝中的应用_Java_霍太稳@极客邦科技_InfoQ精选文章