写点什么

eBay 使用 Hadoop 和 HBase 成功构建下一代搜索

  • 2011-11-23
  • 本文字数:1078 字

    阅读完需:约 4 分钟

eBay 在 Hadoop 世界(Hadoop World) 大会的主题演讲中展示了一种全新的搜索引擎 Cassini 的架构,该引擎预计在 2012 年上线。它对所有的内容和用户的元数据进行索引来得到更好的排名,并每小时刷新索引。它使用 Apache Hadoop 来支持每小时进行的索引更新,使用 Apache HBase 对随机存取信息提供支持。Hugh E. Williams(eBay 交易市场的搜索平台和体验部门的副总裁)发表了演讲,介绍了项目的规模、使用的技术和完全重建 eBay 核心站点搜索过程中得到的经验。这次重建工作由 100 多位工程师耗时 18 个月完成。新 Cassini 平台将能支持:

  • 9700 万活动的买家和卖家
  • 每天 2.5 亿次查询
  • 2 亿多件商品和 5 万多种分类

eBay 已经在 Hadoop 和 Teredata[1] 集群存储了 9PB 用来做分析的数据,但这将是生产环境里提供给用户直接使用第一个应用。新系统将会比当前的系统(Galileo)规模更大:

老系统: Galileo 新系统: Cassini 10 个排名因子 100 个排名因子 默认只匹配标题 默认使用所有字段匹配 上线、监测、修复需要人工干预 上线、监测、修复不需要人工干预 Cassini 将保留 90 天的历史数据在线——按照目前的规模是 10 亿条数据记录,包括用来做排名的用户和行为数据。支持搜索系统所需的大部分工作是由每小时在 Hadoop 上运行的批处理作业完成的。各种不同索引将在同一集群中生成(对 Galileo 的一项改进)。Hadoop 环境使 eBay 能够恢复或重新分类整个站点的库存,这是一项重大改进。

记录存储在 HBase 里,通常在每个小时索引更新的时候进行扫描。当一条新的记录上线,几分钟内就能从 HBase 里进行查询,并被加入实时索引里。HBase 还支持批量和增量写操作和快速读写记录注释。

Williams 提到,团队熟悉 Hadoop 的运维,系统运行很稳定,基本没出什么问题。与此相反,他指出 HBase 似乎很难驾驭。Williams 表示 eBay 仍然致力于使用该技术,向社区提交发现的问题的补丁。在过去的两个星期里,事情已经顺利很多了。团队对于使用 HBase 还是新手,在测试规模的时候遇到一些问题:

* 产品集群的负载配置

* 硬件问题

* 稳定性:不稳定的区域服务器,不稳定的主服务器,在切换的时候区域服务被堵塞

* 监控 HBase 的健康:往往直到问题影响到线上服务的时候才被发现,尽管团队已经加入大量的监控装置

* 管理多步 MapReduce 作业

总体来说,Williams 觉得项目虽然宏大,但是目前进展顺利,团队已经使用 Hadoop 和 HBase 构建出一种显著改善的搜索体验。

译注

[1] Teradata 是数据仓库创新和分析性解决方案开发领域公认的全球领先者. 主页: http://www.teradata.com

查看英文原文: eBay readies next generation search built with Hadoop and HBase

2011-11-23 01:186443

评论

发布
暂无评论
发现更多内容

程序员的基础技能

风翱

程序员 5月日更 基础技能

Git命令: add、cherry pick

程序员架构进阶

git 自我提升 28天写作 5月日更 工作流程

Stacking集成学习算法

容光

【案例】星环智能分析工具 Sophon,助力上海农商行搭建决策型人工智能平台

星环科技

网络攻防学习笔记 Day13

穿过生命散发芬芳

5月日更 网络攻防

一举拿下贪心算法

Simon郎

Java 大数据 算法 LeetCode 数据结构与算法

百分点数据科学实验室:基于数据驱动的销量预测模型建构

百分点大数据团队

生态十年,禾之三变

脑极体

Dubbo 事件通知

青年IT男

dubbo

职场中低调的老实人,该如何表现自己的亮点

小天同学

成长 职场成长 工作体会 5月日更

浅谈实时语音质量监控系统

攻城先森

音视频 nlp 实时语音 引航计划

5分钟速读之Rust权威指南(一)

wzx

rust

学习笔记:03 | 判断与循环:给你的程序加上处理逻辑

Nydia

学习

区块链将开启新一轮颠覆式创新

CECBC

区块链

PaaS容器化部署思考

lenka

5月日更

成长

ES_her0

5月日更

Hive改表结构的两个坑|避坑指南

数据社

大数据 hive 面试 5月日更

Crontab 的特殊字符

耳东@Erdong

Linux crontab linux运维 5月日更

《2021中国开源发展蓝皮书》发布——中国开源接近世界先进水平

禅道项目管理

开源 开发 报告

TDH8.0 使用必读 :为什么你需要存算解耦的多模型数据管理平台

星环科技

百分点科技联合市场研究协会(CMRA)发布《2021五一出行消费体验报告》

百分点大数据团队

ARST- 日常打卡 4

pjw

自动化下载文件(IE浏览器)

IT蜗壳-Tango

5月日更

背靠背,脸对脸

zhoo299

随笔杂谈 5月日更

灵隐寺也没能拯救的“爱情”

徐说科技

爱情 情感 初恋

Python 分支结构详解

若尘

分支 Python编程 5月日更

【案例】星环科技原厂数据备份恢复软件,让大数据与AI应用有备无患

星环科技

“智慧丽江 数说未来” 百分点科技助力“智慧丽江”城市大脑上线

百分点大数据团队

谈谈“鸡娃”现象

石云升

教育 5月日更

数据

顿晓

数据 5月日更

路上,小胖问我:Redis 主从复制原理是怎样的?

一个优秀的废人

redis redis集群 主从复制

eBay使用Hadoop和HBase成功构建下一代搜索_DevOps & 平台工程_Ron Bodkin_InfoQ精选文章