AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

eBay 使用 Hadoop 和 HBase 成功构建下一代搜索

  • 2011-11-23
  • 本文字数:1078 字

    阅读完需:约 4 分钟

eBay 在 Hadoop 世界(Hadoop World) 大会的主题演讲中展示了一种全新的搜索引擎 Cassini 的架构,该引擎预计在 2012 年上线。它对所有的内容和用户的元数据进行索引来得到更好的排名,并每小时刷新索引。它使用 Apache Hadoop 来支持每小时进行的索引更新,使用 Apache HBase 对随机存取信息提供支持。Hugh E. Williams(eBay 交易市场的搜索平台和体验部门的副总裁)发表了演讲,介绍了项目的规模、使用的技术和完全重建 eBay 核心站点搜索过程中得到的经验。这次重建工作由 100 多位工程师耗时 18 个月完成。新 Cassini 平台将能支持:

  • 9700 万活动的买家和卖家
  • 每天 2.5 亿次查询
  • 2 亿多件商品和 5 万多种分类

eBay 已经在 Hadoop 和 Teredata[1] 集群存储了 9PB 用来做分析的数据,但这将是生产环境里提供给用户直接使用第一个应用。新系统将会比当前的系统(Galileo)规模更大:

老系统: Galileo 新系统: Cassini 10 个排名因子 100 个排名因子 默认只匹配标题 默认使用所有字段匹配 上线、监测、修复需要人工干预 上线、监测、修复不需要人工干预 Cassini 将保留 90 天的历史数据在线——按照目前的规模是 10 亿条数据记录,包括用来做排名的用户和行为数据。支持搜索系统所需的大部分工作是由每小时在 Hadoop 上运行的批处理作业完成的。各种不同索引将在同一集群中生成(对 Galileo 的一项改进)。Hadoop 环境使 eBay 能够恢复或重新分类整个站点的库存,这是一项重大改进。

记录存储在 HBase 里,通常在每个小时索引更新的时候进行扫描。当一条新的记录上线,几分钟内就能从 HBase 里进行查询,并被加入实时索引里。HBase 还支持批量和增量写操作和快速读写记录注释。

Williams 提到,团队熟悉 Hadoop 的运维,系统运行很稳定,基本没出什么问题。与此相反,他指出 HBase 似乎很难驾驭。Williams 表示 eBay 仍然致力于使用该技术,向社区提交发现的问题的补丁。在过去的两个星期里,事情已经顺利很多了。团队对于使用 HBase 还是新手,在测试规模的时候遇到一些问题:

* 产品集群的负载配置

* 硬件问题

* 稳定性:不稳定的区域服务器,不稳定的主服务器,在切换的时候区域服务被堵塞

* 监控 HBase 的健康:往往直到问题影响到线上服务的时候才被发现,尽管团队已经加入大量的监控装置

* 管理多步 MapReduce 作业

总体来说,Williams 觉得项目虽然宏大,但是目前进展顺利,团队已经使用 Hadoop 和 HBase 构建出一种显著改善的搜索体验。

译注

[1] Teradata 是数据仓库创新和分析性解决方案开发领域公认的全球领先者. 主页: http://www.teradata.com

查看英文原文: eBay readies next generation search built with Hadoop and HBase

2011-11-23 01:186564

评论

发布
暂无评论
发现更多内容

软件测试/测试开发丨Python Debug 调试与分析

测试人

Python 程序员 debug 软件测试 测试开发

2023年大数据平台数据安全厂商汇总

行云管家

大数据 数据安全 大数据平台

MatrixOne WAL设计解析

MatrixOrigin

分布式数据库 云原生数据库 MatrixOrigin MatrixOne HTAP数据库

创新未来的智能数据生成

百度开发者中心

人工智能 ChatGPT 生成式AI

MES系统详细介绍

万界星空科技

MES系统

新华网专访王文京:向全球前三的企业数智化平台迈进

用友BIP

2023全球商业创新大会

企业大数据平台建设七大场景,看这本指南就够了

极客天地

杰哥教你面试之一百问系列:java中高级多线程concurrent的使用

程序那些事

Java 多线程 并发 程序那些事 面试秘籍

人工智能新范式,创新生产力崛起

百度开发者中心

人工智能 数据分析、 ChatGPT 文心一言

聊聊GaussDB AP是如何执行SQL的

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号9月PK榜

一切为了开发者,9月16日,重大信息即将发布,敬请期待

LAVAL社区小助手

从数据出发,构建可信赖的生成式AI应用

百度开发者中心

人工智能 数据分析 千帆大模型平台

ClickHouse 存算分离改造:小红书自研云原生数据仓库实践

小红书技术REDtech

数据仓库 云原生 OLAP Clickhouse 存算分离

Eplan是电气设计软件吗?Eplan介绍-Eplan官网

智造软件

EPLAN 电气辅助设计 电气设计

云堡垒机收费模式有哪些?哪款更灵活?

行云管家

云计算 网络安全 堡垒机 云堡垒机

GaussDB技术解读丨数据库迁移创新实践

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号9月PK榜

用友iuap数据中台,让数据成为企业价值资产,驱动业务持续创新

用友BIP

2023全球商业创新大会 升级数智底座

自动创作新内容的人工智能

百度开发者中心

人工智能 数据可视化 生成式AI 文心一言

自动化性能测试的理解误区

老张

性能测试 自动化测试 性能基线

Mac电脑油猴插件 Tampermonkey激活中文版

胖墩儿不胖y

Mac软件 油猴插件 脚本管理

EasyPhoto:基于 SD WebUI 的艺术照生成插件来啦!

阿里云大数据AI技术

阿里云 AI

提高生产力,创新工作方式

百度开发者中心

人工智能 ChatGPT 生成式AI 文心一言

一体化打通销售到项目交付 项目型营销更在行

用友BIP

项目云 数智营销

eBay使用Hadoop和HBase成功构建下一代搜索_DevOps & 平台工程_Ron Bodkin_InfoQ精选文章