写点什么

eBay 使用 Hadoop 和 HBase 成功构建下一代搜索

  • 2011-11-23
  • 本文字数:1078 字

    阅读完需:约 4 分钟

eBay 在 Hadoop 世界(Hadoop World) 大会的主题演讲中展示了一种全新的搜索引擎 Cassini 的架构,该引擎预计在 2012 年上线。它对所有的内容和用户的元数据进行索引来得到更好的排名,并每小时刷新索引。它使用 Apache Hadoop 来支持每小时进行的索引更新,使用 Apache HBase 对随机存取信息提供支持。Hugh E. Williams(eBay 交易市场的搜索平台和体验部门的副总裁)发表了演讲,介绍了项目的规模、使用的技术和完全重建 eBay 核心站点搜索过程中得到的经验。这次重建工作由 100 多位工程师耗时 18 个月完成。新 Cassini 平台将能支持:

  • 9700 万活动的买家和卖家
  • 每天 2.5 亿次查询
  • 2 亿多件商品和 5 万多种分类

eBay 已经在 Hadoop 和 Teredata[1] 集群存储了 9PB 用来做分析的数据,但这将是生产环境里提供给用户直接使用第一个应用。新系统将会比当前的系统(Galileo)规模更大:

老系统: Galileo 新系统: Cassini 10 个排名因子 100 个排名因子 默认只匹配标题 默认使用所有字段匹配 上线、监测、修复需要人工干预 上线、监测、修复不需要人工干预 Cassini 将保留 90 天的历史数据在线——按照目前的规模是 10 亿条数据记录,包括用来做排名的用户和行为数据。支持搜索系统所需的大部分工作是由每小时在 Hadoop 上运行的批处理作业完成的。各种不同索引将在同一集群中生成(对 Galileo 的一项改进)。Hadoop 环境使 eBay 能够恢复或重新分类整个站点的库存,这是一项重大改进。

记录存储在 HBase 里,通常在每个小时索引更新的时候进行扫描。当一条新的记录上线,几分钟内就能从 HBase 里进行查询,并被加入实时索引里。HBase 还支持批量和增量写操作和快速读写记录注释。

Williams 提到,团队熟悉 Hadoop 的运维,系统运行很稳定,基本没出什么问题。与此相反,他指出 HBase 似乎很难驾驭。Williams 表示 eBay 仍然致力于使用该技术,向社区提交发现的问题的补丁。在过去的两个星期里,事情已经顺利很多了。团队对于使用 HBase 还是新手,在测试规模的时候遇到一些问题:

* 产品集群的负载配置

* 硬件问题

* 稳定性:不稳定的区域服务器,不稳定的主服务器,在切换的时候区域服务被堵塞

* 监控 HBase 的健康:往往直到问题影响到线上服务的时候才被发现,尽管团队已经加入大量的监控装置

* 管理多步 MapReduce 作业

总体来说,Williams 觉得项目虽然宏大,但是目前进展顺利,团队已经使用 Hadoop 和 HBase 构建出一种显著改善的搜索体验。

译注

[1] Teradata 是数据仓库创新和分析性解决方案开发领域公认的全球领先者. 主页: http://www.teradata.com

查看英文原文: eBay readies next generation search built with Hadoop and HBase

2011-11-23 01:186452

评论

发布
暂无评论
发现更多内容

【FAQ】HarmonyOS SDK 闭源开放能力 —Push Kit(6)

HarmonyOS SDK

HarmonyOS

【稳定性】上线三板斧(可灰度、可验证、可回滚)

京东科技开发者

《一文讲透》第4-3期:KWDB 数据库运维 —— 安全与审计(上)

KWDB数据库

时序数据库 数据库运维 审计 数据库安全 多模数据库

华为阅读启动“乘国航 阅世界”国航伴读计划,3重好礼免费领!

最新动态

和鲸气象联合解决方案闪耀亮相第29届联合国气候变化大会(COP29)

ModelWhale

人工智能 AI R 语言 气候 COP29

释放数据生产力——数据编织的价值实现与评估

Aloudata

数据分析 数据开发 数据集成 数据虚拟化 数据编织

hyperf-alarm-clock,一个自动计算代码执行时间,超时并发送通知的小工具

左诗右码

长上下文语言模型评估体系探析

Baihai IDP

程序员 AI LLMs 长上下文语言模型

用户指南 | 快速迁移 InfluxDB v2 数据至 GreptimeDB

Greptime 格睿科技

数据库 云原生 数据存储 数据迁移

Navicat Premium 15 for Mac(数据库管理软件)

Mac相关知识分享

实录速递 | 和鲸ModelWhale助力医学Datathon跨学科协同,共筑数据科学与临床研究标准化新路径

ModelWhale

Python 人工智能 数据库 R语言 临床医学

可观测场景如何使用 Vector Remap 优化日志数据的解析与存储

Greptime 格睿科技

云原生 日志 vector 可观测 database

某充电桩业务服务内存监控和程序行为分析

乘云数字DataBuff

运维 内存监控

华为视频多平台聚合,热门IP《白夜破晓》《珠帘玉幕》任你追

最新动态

《京东金融APP的鸿蒙之旅系列专题》鸿蒙新特性篇:Hello, 仓颉 World

京东科技开发者

如何在敏捷开发中实现更好的需求管理

易成研发中心

需求管理 需求管理工具

保障管理系统(源码+文档+部署+讲解)

深圳亥时科技

为什么说逻辑数据编织是一种低门槛、高容错度、高 ROI 的数据集成与开发模式?

Aloudata

数据仓库 数据开发 数据集成 数据虚拟化 数据编织

NocoBase 本周更新汇总:优化 REST API 数据源插件

NocoBase

开源 低代码 插件 无代码 版本更新

强化学习在众包差异化定价中的探索

京东科技开发者

Microsoft Remote Desktop Beta for Mac(微软远程连接软件)

Mac相关知识分享

专业视频编辑软件Final Cut Pro X for Mac(fcpx视频剪辑)

Mac相关知识分享

AlDente Pro for Mac(电池最大充电限制软件)

Mac相关知识分享

SecureCRT for mac(终端SSH工具)

Mac相关知识分享

数智绩效合并报表:全球化合并实现财报精准高效

用友智能财务

科技 财务 企业数智化 财务软件

国内外十大开源快速开发平台推荐

NocoBase

开源 低代码 快速开发 无代码

能源能耗分析平台(源码+文档+部署+讲解)

深圳亥时科技

【论文速读】| 人工智能驱动的网络威胁情报自动化

云起无垠

KWDB v2.1.0 发版说明

KWDB数据库

时序数据库 查询优化 分布式架构 DataX 数据查询

eBay使用Hadoop和HBase成功构建下一代搜索_DevOps & 平台工程_Ron Bodkin_InfoQ精选文章