最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

eBay 使用 Hadoop 和 HBase 成功构建下一代搜索

  • 2011-11-23
  • 本文字数:1078 字

    阅读完需:约 4 分钟

eBay 在 Hadoop 世界(Hadoop World) 大会的主题演讲中展示了一种全新的搜索引擎 Cassini 的架构,该引擎预计在 2012 年上线。它对所有的内容和用户的元数据进行索引来得到更好的排名,并每小时刷新索引。它使用 Apache Hadoop 来支持每小时进行的索引更新,使用 Apache HBase 对随机存取信息提供支持。Hugh E. Williams(eBay 交易市场的搜索平台和体验部门的副总裁)发表了演讲,介绍了项目的规模、使用的技术和完全重建 eBay 核心站点搜索过程中得到的经验。这次重建工作由 100 多位工程师耗时 18 个月完成。新 Cassini 平台将能支持:

  • 9700 万活动的买家和卖家
  • 每天 2.5 亿次查询
  • 2 亿多件商品和 5 万多种分类

eBay 已经在 Hadoop 和 Teredata[1] 集群存储了 9PB 用来做分析的数据,但这将是生产环境里提供给用户直接使用第一个应用。新系统将会比当前的系统(Galileo)规模更大:

老系统: Galileo 新系统: Cassini 10 个排名因子 100 个排名因子 默认只匹配标题 默认使用所有字段匹配 上线、监测、修复需要人工干预 上线、监测、修复不需要人工干预 Cassini 将保留 90 天的历史数据在线——按照目前的规模是 10 亿条数据记录,包括用来做排名的用户和行为数据。支持搜索系统所需的大部分工作是由每小时在 Hadoop 上运行的批处理作业完成的。各种不同索引将在同一集群中生成(对 Galileo 的一项改进)。Hadoop 环境使 eBay 能够恢复或重新分类整个站点的库存,这是一项重大改进。

记录存储在 HBase 里,通常在每个小时索引更新的时候进行扫描。当一条新的记录上线,几分钟内就能从 HBase 里进行查询,并被加入实时索引里。HBase 还支持批量和增量写操作和快速读写记录注释。

Williams 提到,团队熟悉 Hadoop 的运维,系统运行很稳定,基本没出什么问题。与此相反,他指出 HBase 似乎很难驾驭。Williams 表示 eBay 仍然致力于使用该技术,向社区提交发现的问题的补丁。在过去的两个星期里,事情已经顺利很多了。团队对于使用 HBase 还是新手,在测试规模的时候遇到一些问题:

* 产品集群的负载配置

* 硬件问题

* 稳定性:不稳定的区域服务器,不稳定的主服务器,在切换的时候区域服务被堵塞

* 监控 HBase 的健康:往往直到问题影响到线上服务的时候才被发现,尽管团队已经加入大量的监控装置

* 管理多步 MapReduce 作业

总体来说,Williams 觉得项目虽然宏大,但是目前进展顺利,团队已经使用 Hadoop 和 HBase 构建出一种显著改善的搜索体验。

译注

[1] Teradata 是数据仓库创新和分析性解决方案开发领域公认的全球领先者. 主页: http://www.teradata.com

查看英文原文: eBay readies next generation search built with Hadoop and HBase

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2011-11-23 01:186320

评论

发布
暂无评论
发现更多内容

铭文热潮扩散,新手该如何参与

石头财经

建设专业化运维服务团队必要性

太乙闲人

DevOps 运维‘

2023 年备受瞩目的向量数据库赛道盘点出炉

Zilliz

Milvus Zilliz AIGC

简析SoBit 跨链桥图文教程

大瞿科技

深度解读:阿里云全球首发的容器计算服务 ACS 诞生背景、核心技术与应用场景

阿里巴巴云原生

阿里云 云原生 容器计算

一文读懂SoBit 跨链桥教程

BlockChain先知

牛市前夕,你打铭文了吗?

长安区块链

一文读懂铭文赛道新手攻略

加密眼界

2023华为游戏中心年度榜单发布,这9款游戏不容错过!

最新动态

华为天气2023年度榜单重磅发布,以专业的角度回顾2023天气之最

最新动态

分布式云原生操作系统KubeWharf初探

雪雷

#云原生 KubeWharf

E3PO:开源平台助力360°视频传输方案模拟与优化

熬夜磕代码、

牛市前夕,你打铭文了吗?

BlockChain先知

makefile | AI工程化部署

AIWeker

c AI AI工程化部署

AI助力后端开发的新趋势

Geek-yan

WuBit:聚合BRC20资产交易,续写铭文市场新浪潮

股市老人

一文读懂SoBit 跨链桥教程

股市老人

栅极驱动 IC 自举电路的设计与应用指南

二哈侠

2023华为主题年度榜单新鲜出炉!

最新动态

WuBit:聚合BRC20资产交易,续写铭文市场新浪潮

EOSdreamer111

API 参考与帮助内容:一站式开发与使用者支援

小万哥

程序人生 软件工程 后端开发 技术写作 API 文档

一文读懂SoBit 跨链桥教程

EOSdreamer111

华尔街日报:企业数据中心 VS 云,会取得平衡

B Impact

简析SoBit 跨链桥图文教程

西柚子

Springboot是什么?Springboot详解!入门介绍

小明Java问道之路

spring Spring Boot springboot

电商运营数据分析要做什么?

tbapi

电商数据分析 电商数据接口 电商数据采集 电商数据分析接口

带你读懂SoBit 跨链桥教程

长安区块链

简析SoBit 跨链桥图文教程

石头财经

铭文热潮扩散,新手该如何参与

大瞿科技

展望2024的区块链世界,铭文将是绕不开的话题

西柚子

软件测试之我见

极客罗杰

eBay使用Hadoop和HBase成功构建下一代搜索_DevOps & 平台工程_Ron Bodkin_InfoQ精选文章