NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

百度技术沙龙第 5 期回顾:现代搜索核心技术(含资料下载)

  • 2010-08-19
  • 本文字数:1564 字

    阅读完需:约 5 分钟

在上周六举行的百度技术沙龙活动上,来自百度搜索技术部的研究员殷庆轩和去哪儿网站的搜索技术负责人何伟平,分享了如何提高搜索引擎的时效性,以及数据库在现代搜索技术中的应用。本文对这次活动的内容做简要总结,并提供了演讲用幻灯片下载

殷庆轩在题为“搜索引擎的时效性需求满足”演讲中,主要介绍了时效性问题的定义、需求分析,以及包括收录、排序和系统等相关的技术点。比如结合当前的热点事件对突发时效性的难点进行了分析,在目前每天全球新增或者修改的网页数量以数十亿为量级的海量数据下,要在几秒或者几分钟内提供准确而详细的信息,是非常困难的。这也就要求搜索引擎具备“全、准、快、新”的特点,其中“全”即对数据的收录详细程度,”准“为对相关数据进行排序,而”快“则是确保系统能够以最快的速度响应用户的需求。现场参会者周志奇对这个话题也做了简单总结:

百度索引中提供检索的数据只有百亿条,而现在每天增加的数据量已是 2-3 亿条,现在每一天增加的数据量是 2003 年一年数据的增长量。对于如此强势的增长,要对数据进行全部索引并在 200-300 个毫秒级返回检索结果几乎是不可能的,所以就要对数据进行优化。 数据是有时效性的,索引可以为分最新最常使用的、不常使用的、很少使用的和很老又不用的等。所以可以多几个索引库,并对数据进行整理,对于时效性不强的可以向后面的索引里转移,检索时对这几个索引并发检索,最后将结果合并后返回用户。对于不用的数据只是一个保存,而不提供检索,或是在检索结果很少的情况下,再多增加一个链接"点击查看更多",点击后就去查找老而全的库。虽然返回时间可能会很长,但是用户体验的感受是不会降低的。

来自去哪儿的工程师和搜索技术负责人何伟平,在活动现场分享了”数据库在现代搜索技术中的应用“。在加入去哪儿之前,何伟平在雅虎中国研发中心从事网页搜索相关工作,并且是 PostgreSQL 数据库研究人员和中文文档维护人员,在数据库技术领域有自己的见解。在他的演讲中,他先是介绍了数据库的演变史,而后重点介绍了数据库和现代搜索的关系,比如 SQL 数据库并没有过时,SQL 数据库也有强大的扩展能力,用好了也可以拥有很好的性能。他也提到对于中等业务规模,访问量也不是非常巨大,而对需求要求灵活的网站,选择 SQL 数据库是比较理想的。在谈到使用 SQL 数据库来做搜索的优缺点时,他提到:

简而言之,用 SQL 数据库来做搜索,其有点是简单、方便、通用,而且易于维护;不足之处是需要比较强的专业知识,而且可能需要额外的编码等。

最后他以下拉提示、相关推荐、站内搜索和垂直引擎等几个案例分享了他对现代搜索技术的看法。在提问环节,有参会者问道”去哪儿网站在抓取航班数据的时候如何确保时效性“,何伟平解释说:

这个问题和刚才百度朋友提到的时效性挺像的,我们最头疼的地方也是时效和 Cache(缓存)之间的关系,我们采取的是比较短的时间 Cache 策略,这是(系统)比较长时间运行出来的经验,一般也就几秒钟就足够了。比如热门的航线,比如京沪,我们几乎是实时地去抓,但也不是真的实时,因为用户的使用习惯是一旦查到一个结果后都会再刷好几次,它刷的这几次就需要坚决地不去影响后面的网站或者航信系统。我们一般是这样考虑的!

也有参会者在会后记录了自己参会的一些感触,比如来自凤凰网的孙立,在他的”实时搜索之微博“博客中提到”这也是我第一次参加 InfoQ 的聚会,感觉非常不错,不但免费,而且内容质量非常高,活动形式也非常的好,不幸的是回来后感冒发烧了。“他还记录了在现场活动的 OpenSpace“每一个人都是讲师”环节自己小组所讨论的主要内容,如果构建一个基于微博的实时搜索系统。网上的一些图文报道见“图文大亮相~~ 百度技术沙龙第 5 期”。

关于两位演讲嘉宾的更多细节内容,请下载他们的演讲幻灯片,随后 InfoQ 中文站还会发布他们的演讲视频,敬请期待。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2010-08-19 00:354913

评论

发布
暂无评论
发现更多内容

陈长城:NineData面向Doris实时数仓集成的技术实践

NineData

数据库 实时数仓 Doris 玖章算术 NineData

PON网络应用场景

小魏写代码

21 天技术人写作行动营招募中

InfoQ写作社区官方

AI 写作 写作技巧 热门活动 活动预告

预发部署时机器总是重启两次的“简单”排查

阿里技术

部署 故障排查 排查 预发 重启

aiohttp - Python 异步 HTTP 客户端库入门教程

Liam

Python 编程 程序员 后端 aiohttp

MATLAB R2023b mac最新中文激活版资源

影影绰绰一往直前

四载磨砺,一群青年“识瘤者”以AI助力医疗创新

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 先锋开发者云上说

利用 Kubernetes 降本增效?EasyMR 基于 Kubernetes 部署的探索实践

袋鼠云数栈

Kubernetes 运维 集群管理

APM建设踩了哪些坑?去哪儿旅行分布式链路追踪系统实践

TakinTalks稳定性社区

TiDB x 云盛海宏丨加速精细化运营,云海零售系统的架构演进

TiDB 社区干货传送门

实践案例

在小红书认识不到一周,我和TA成为了同事

用友BIP

智能招聘

Colibri for Mac(原生无损音频播放器) 2.1.9永久激活版

mac

苹果mac Windows软件 Colibri 音频播放器软件

你真的了解@Async吗? | 京东云技术团队

京东科技开发者

spring 注解 Async 企业号11月PK榜

微众银行 TiDB HTAP 和自动化运维实践

TiDB 社区干货传送门

实践案例

TiDB 在安信证券资产中心与极速交易场景的实践

TiDB 社区干货传送门

实践案例

主流的第三方直播SDK对比(腾讯云、即构、阿里云、声网、网易云信、网宿)

音视频开发_AIZ

实时音视频 直播技术 SDK测试 音视频开发 直播间

观测云产品更新 | 监控、图表、服务管理、单点登录、Pipeline 等优化

观测云

数据库 pipeline 单点登录

SCSS 进阶之道:探索更多样式表达的可能性

伤感汤姆布利柏

为了 Vue 组件测试,你需要为每个事件绑定的方法加上括号吗?

OpenTiny社区

开源 Vue 前端 测试

提升提测质量之研测共建 | 京东云技术团队

京东科技开发者

测试 研发 企业号11月PK榜

学习指南:如何快速上手媒体生态一致体验开发

HarmonyOS开发者

HarmonyOS

如何充分压榨一台EC2

申屠鹏会

利用ETLCloud自动化流程实现业务系统数据快速同步至数仓

RestCloud

ETL

如何用AB测试完善产品激励体系

字节跳动数据平台

大数据 A/B 测试 对比实验

OpenCL任务调度基础介绍 | 京东物流技术团队

京东科技开发者

gpu 编程语言 企业号11月PK榜 OpenCL

如何基于亚马逊云科技打造高性能的 SQL 向量数据库 MyScale

亚马逊云科技 (Amazon Web Services)

机器学习 深度学习 存储 Amazon EC2 向量数据库

邀请报名|11月24日阿里云原生 Serverless 技术实践营 深圳站

Serverless Devs

云计算 Serverless AIGC 沙龙预告

基于数据中台的过程看板助力光伏单晶行业管理提升

用友BIP

数据中台

Mini PCIe WiFi card SOC-QCA9880 vs. QCA9882: 802.11ac Dual-Band Wireless Chipset Sh

wifi6-yiyi

QCA9880 Mini PCIe WiFi card

百度技术沙龙第5期回顾:现代搜索核心技术(含资料下载)_数据库_霍太稳@极客邦科技_InfoQ精选文章