AICon 深圳站聚焦 Agent 技术、应用与生态,大咖分享实战干货 了解详情
写点什么

eBay 使用 Hadoop 和 HBase 成功构建下一代搜索

  • 2011-11-23
  • 本文字数:1078 字

    阅读完需:约 4 分钟

eBay 在 Hadoop 世界(Hadoop World) 大会的主题演讲中展示了一种全新的搜索引擎 Cassini 的架构,该引擎预计在 2012 年上线。它对所有的内容和用户的元数据进行索引来得到更好的排名,并每小时刷新索引。它使用 Apache Hadoop 来支持每小时进行的索引更新,使用 Apache HBase 对随机存取信息提供支持。Hugh E. Williams(eBay 交易市场的搜索平台和体验部门的副总裁)发表了演讲,介绍了项目的规模、使用的技术和完全重建 eBay 核心站点搜索过程中得到的经验。这次重建工作由 100 多位工程师耗时 18 个月完成。新 Cassini 平台将能支持:

  • 9700 万活动的买家和卖家
  • 每天 2.5 亿次查询
  • 2 亿多件商品和 5 万多种分类

eBay 已经在 Hadoop 和 Teredata[1] 集群存储了 9PB 用来做分析的数据,但这将是生产环境里提供给用户直接使用第一个应用。新系统将会比当前的系统(Galileo)规模更大:

老系统: Galileo 新系统: Cassini 10 个排名因子 100 个排名因子 默认只匹配标题 默认使用所有字段匹配 上线、监测、修复需要人工干预 上线、监测、修复不需要人工干预 Cassini 将保留 90 天的历史数据在线——按照目前的规模是 10 亿条数据记录,包括用来做排名的用户和行为数据。支持搜索系统所需的大部分工作是由每小时在 Hadoop 上运行的批处理作业完成的。各种不同索引将在同一集群中生成(对 Galileo 的一项改进)。Hadoop 环境使 eBay 能够恢复或重新分类整个站点的库存,这是一项重大改进。

记录存储在 HBase 里,通常在每个小时索引更新的时候进行扫描。当一条新的记录上线,几分钟内就能从 HBase 里进行查询,并被加入实时索引里。HBase 还支持批量和增量写操作和快速读写记录注释。

Williams 提到,团队熟悉 Hadoop 的运维,系统运行很稳定,基本没出什么问题。与此相反,他指出 HBase 似乎很难驾驭。Williams 表示 eBay 仍然致力于使用该技术,向社区提交发现的问题的补丁。在过去的两个星期里,事情已经顺利很多了。团队对于使用 HBase 还是新手,在测试规模的时候遇到一些问题:

* 产品集群的负载配置

* 硬件问题

* 稳定性:不稳定的区域服务器,不稳定的主服务器,在切换的时候区域服务被堵塞

* 监控 HBase 的健康:往往直到问题影响到线上服务的时候才被发现,尽管团队已经加入大量的监控装置

* 管理多步 MapReduce 作业

总体来说,Williams 觉得项目虽然宏大,但是目前进展顺利,团队已经使用 Hadoop 和 HBase 构建出一种显著改善的搜索体验。

译注

[1] Teradata 是数据仓库创新和分析性解决方案开发领域公认的全球领先者. 主页: http://www.teradata.com

查看英文原文: eBay readies next generation search built with Hadoop and HBase

2011-11-23 01:186693

评论

发布
暂无评论
发现更多内容

源码级解决方案一键部署,华为云Solution as Code正式上线

科技怪授

iOS 查找字符串出现的范围

刿刀

ios swift

SEAL 0.3 正式发布:国内首个全链路软件供应链安全管理平台

SEAL安全

安全 全链路 软件供应链 SEAL

嵌入式系统硬件概述

timerring

嵌入式系统 12月月更

国产开源操作系统OpenCloudOS新进展:装机量超1000万节点,合作伙伴超500 家

科技热闻

使用 Databend 加速 Hive 查询

Databend

从React源码分析看useEffect

goClient1992

React

腾讯云曹磊:双碳、双循环政策驱动下,消费电子行业的新机遇

科技热闻

华为云发布《高可用网站架构云化解决方案》

爱尚科技

从React源码角度看useCallback,useMemo,useContext

goClient1992

React

从React源码来学hooks是不是更香呢

goClient1992

React

架构解析:Dubbo3 应用级服务发现如何应对双11百万集群实例

Apache Dubbo

Java 开源 微服务 dubbo

腾讯产业生态规模大、增速快、质量高,2023年将加大生态开放力度

科技热闻

华为云发布《基于MetaTown构建数字资产平台》

爱尚科技

结合RocketMQ 源码,带你了解并发编程的三大神器

华为云开发者联盟

RocketMQ 开发 华为云 12 月 PK 榜

Flink on Yarn三部曲之一:准备工作

程序员欣宸

大数据 flink hadoop YARN 12月月更

深入浅出Seata的AT模式

Java 架构

BSN开放联盟链“中移链”浏览器2.0正式发布!

BSN研习社

BSN 中移链

BSN-DDC基础网络DDC SDK详细设计(七):数据解析

BSN研习社

BSN-DDC

Zig语言初探

Yuet

架构实战营模块 7 作业

陌生流云

架构实战营

购物季订单多管理难?用WeLink轻松搞定

科技怪授

WeLink&SKG,让年轻人爱上养生

i生活i科技

基于云原生的火山引擎边缘云应用与实践

火山引擎边缘云

分布式 云原生 边缘计算 节点 火山引擎边缘计算

一文读懂|2021年数据库领域精彩回顾

YMatrix 超融合数据库

译文 | A poor man's API

API7.ai 技术团队

API APISIX RESTful API

三江学院计算机科学与工程学院举办“火焰杯”软件测试开发选拔赛颁奖仪式

测吧(北京)科技有限公司

软件测试 测试

腾讯云升级发布两大区块链产品,助力产业区块链数字化生态建设

科技热闻

三江学院计算机科学与工程学院举办“火焰杯”软件测试开发选拔赛颁奖仪式

霍格沃兹测试开发学社

WeLink助力中建西南院成功举办数字赋能培训

i生活i科技

雾霾对户外LED显示屏的考验

Dylan

LED LED显示屏 户外LED显示屏

eBay使用Hadoop和HBase成功构建下一代搜索_DevOps & 平台工程_Ron Bodkin_InfoQ精选文章