硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

eBay 使用 Hadoop 和 HBase 成功构建下一代搜索

  • 2011-11-23
  • 本文字数:1078 字

    阅读完需:约 4 分钟

eBay 在 Hadoop 世界(Hadoop World) 大会的主题演讲中展示了一种全新的搜索引擎 Cassini 的架构,该引擎预计在 2012 年上线。它对所有的内容和用户的元数据进行索引来得到更好的排名,并每小时刷新索引。它使用 Apache Hadoop 来支持每小时进行的索引更新,使用 Apache HBase 对随机存取信息提供支持。Hugh E. Williams(eBay 交易市场的搜索平台和体验部门的副总裁)发表了演讲,介绍了项目的规模、使用的技术和完全重建 eBay 核心站点搜索过程中得到的经验。这次重建工作由 100 多位工程师耗时 18 个月完成。新 Cassini 平台将能支持:

  • 9700 万活动的买家和卖家
  • 每天 2.5 亿次查询
  • 2 亿多件商品和 5 万多种分类

eBay 已经在 Hadoop 和 Teredata[1] 集群存储了 9PB 用来做分析的数据,但这将是生产环境里提供给用户直接使用第一个应用。新系统将会比当前的系统(Galileo)规模更大:

老系统: Galileo 新系统: Cassini 10 个排名因子 100 个排名因子 默认只匹配标题 默认使用所有字段匹配 上线、监测、修复需要人工干预 上线、监测、修复不需要人工干预 Cassini 将保留 90 天的历史数据在线——按照目前的规模是 10 亿条数据记录,包括用来做排名的用户和行为数据。支持搜索系统所需的大部分工作是由每小时在 Hadoop 上运行的批处理作业完成的。各种不同索引将在同一集群中生成(对 Galileo 的一项改进)。Hadoop 环境使 eBay 能够恢复或重新分类整个站点的库存,这是一项重大改进。

记录存储在 HBase 里,通常在每个小时索引更新的时候进行扫描。当一条新的记录上线,几分钟内就能从 HBase 里进行查询,并被加入实时索引里。HBase 还支持批量和增量写操作和快速读写记录注释。

Williams 提到,团队熟悉 Hadoop 的运维,系统运行很稳定,基本没出什么问题。与此相反,他指出 HBase 似乎很难驾驭。Williams 表示 eBay 仍然致力于使用该技术,向社区提交发现的问题的补丁。在过去的两个星期里,事情已经顺利很多了。团队对于使用 HBase 还是新手,在测试规模的时候遇到一些问题:

* 产品集群的负载配置

* 硬件问题

* 稳定性:不稳定的区域服务器,不稳定的主服务器,在切换的时候区域服务被堵塞

* 监控 HBase 的健康:往往直到问题影响到线上服务的时候才被发现,尽管团队已经加入大量的监控装置

* 管理多步 MapReduce 作业

总体来说,Williams 觉得项目虽然宏大,但是目前进展顺利,团队已经使用 Hadoop 和 HBase 构建出一种显著改善的搜索体验。

译注

[1] Teradata 是数据仓库创新和分析性解决方案开发领域公认的全球领先者. 主页: http://www.teradata.com

查看英文原文: eBay readies next generation search built with Hadoop and HBase

2011-11-23 01:186758

评论

发布
暂无评论
发现更多内容

openGauss Summit 2021你想知道的都在这!

一周信创舆情观察(2021.12.27~2022.1.3)

统小信uos

kubelet 的主动驱逐POD

Geek_f24c45

Kubernetes kubelet

新思科技:2022年软件安全行业七大趋势预测

InfoQ_434670063458

新思科技 2022 安全趋势

应急响应-Yara规则木马检测

H

网络安全 应急响应

技术干货 | WebRTC 技术解析之 Android VDM

网易云信

Java android 音视频 VDM

技术说|拓维·建木边缘计算平台,让算力先行一步

拓维信息

云计算 大数据 边缘计算

恒源云(GPUSHARE)_字节跳动的mRASP预训练模型真香

恒源云

字节跳动 机器翻译 语音识别

多IOT设备上跑物联网应用,你也可以

Speedoooo

物联网 IoT ios开发 Andriod开发

openGauss 2021 感谢有您,一起创造了那些灿烂记忆

青藤:省心又省钱!安全运营服务正在成为甲方企业的主流选择

青藤云安全

AI开发平台系列1:AI开发平台“家族”概览

Baihai IDP

人工智能 ide AI 平台

数字人民币app公开上架应用市场 试点区域外用户暂无法使用

CECBC

05 Prometheus之监控主机和容器

穿过生命散发芬芳

Prometheus 1月月更

龙蜥实验室来了!收下这份指南,秒级体验 Anolis OS

OpenAnolis小助手

国产操作系统 龙蜥社区

LabVIEW图像模式匹配(基础篇—11)

不脱发的程序猿

机器视觉 图像处理 LabVIEW 图像模式匹配

中国电信发布运营商行业首个云原生关系型数据库TeleDB for openGauss

开源demo| anyRTC 互动白板发布,助力实时互动场景

anyRTC开发者

音视频 在线教育 视频会议 智慧协同 开源demo

深入理解虚拟化

极客重生

云计算 容器 虚拟机 调度 资源隔离

从GitHub 到极狐GitLab 的迁移指南

极狐GitLab

GitHub 极狐GitLab 迁移指南

加密货币、去中心化金融和交易的演变:一种交易成本方法

CECBC

分享一个小故事

石云升

故事 1月月更

Linux之find命令的参数详解

CRMEB

教你实现一个 iOS 重签名工具

37手游iOS技术运营团队

ios xcode

云计算厂商们,你们辜负了中国的用户

观测观测

云原生 云计算架构师

小声嘟囔:char 和 unsigned char 有那么大差距吗?

BUG侦探

c ios 汇编 ios开发

共话数据库技术与行业数字化融合创新,探讨开源数据库未来发展

廖湘科:数据库需要充分利用开源和发展开源,广泛吸纳全产业力量

openGauss数据库源码解析系列文章——存储引擎源码解析(一)

双碳绿色风中,乘势而起了哪些新能源?

脑极体

一篇从购买服务器到部署博客代码的详细教程

冴羽

nginx 前端 后端 博客 博客搭建

eBay使用Hadoop和HBase成功构建下一代搜索_DevOps & 平台工程_Ron Bodkin_InfoQ精选文章