生成式AI领域的最新成果都在这里!抢 QCon 展区门票 了解详情
写点什么

ArchSummit 讲师专访:百度主任架构师廖若雪谈搜索新时代

  • 2012-07-06
  • 本文字数:1655 字

    阅读完需:约 5 分钟

编者按:由 InfoQ 中文站主办的首届 International ArchSummit 架构师峰会即将召开。我们也对一些专题的讲师进行了采访,谈谈他们要讲的议题。

廖若雪,百度主任架构师,现在主要负责推荐。在百度之前做了很长时间跟搜索架构、图形分析相关工作。

InfoQ:您在百度内负责了哪些与搜索相关的技术和架构?

廖若雪:我最早进百度就是开始做检索架构,后来就逐渐扩展到跟 ranking 相关的,比如说排序、相关性,逐渐扩展到用户行为分析,后来又做了一段下一代搜索架构相关工作。

InfoQ:您认为搜索目前面临哪些问题?有哪些地方可以改进?

廖若雪:现在搜索引擎本身是从满足用户需求角度出发的,然后扩展到一些新问题,包括时效性、权威性、相关性,以及这两年新出来的一些东西,比如我们推出一些满足用户真正潜在需求的功能。尽管有绝大部分用户需求我们已经满足的不错了。但是还有相当一部分用户需求我们满足得不好,我们可以看到很多。举个例子,用户,尤其中国用户的自然语言表达成分越来越多,这对于搜索是巨大的挑战。在很多国家,或者一些高端用户,他们在查询的时候,他会写一些独立的、用空格隔开的词。在中国,很多用户一上来就直接输入问题。比如可能有人输入:一篇描写春天的作文,五百字左右,然后空格,快一点。这是一个很有意思的概念,用户使用搜索引擎,是把你当成一个万事通。如何去满足这样的需求呢,我们用了很多方法。从语义角度,从用户行为分析的角度,去解决这样的问题。我们解决了一部分,但还有很大一部分问题没有解决,这是一个方面。

第二个比较大的挑战:很多时候,现在用户在使用搜索引擎时,他的需求是隐藏的,我们称之为潜在需求,流行一点,就是个性化需求。这种潜在需求是和他的个性化有关的。举个最简单的例子,用户搜索天气,这个个性化产生在什么地方呢?在于他的位置,在北京,北京的天气,在深圳,深圳的天气。这是跟地理相关的。比如说他搜苹果,对于很多人来说,可能是吃的苹果;最近新闻上面也有一些跟跟吃的苹果相关的新闻。还有很多人是对于苹果电脑、苹果公司和 WWDC 大会的新闻。这就需要我们把这个人搜索时的上下文,对他所处的环境,融入搜索结果中。

InfoQ:这次“搜索新时代”专题中目前有这几个演讲:百度陈竞凯的“网页搜索新技术探讨”、搜狗茹立云的“深层网络搜索核心技术探讨”、一淘网曲琳的“购物搜索引擎架构的变与不变”。对于这几个演讲,您有什么期望?

廖若雪:这些议题都是我们现在搜索中随时面临的一些主要问题。实际上百度对这些问题或多或少有自己的研究,或者很多自己的方法,也希望看到很多同行有没有新的方案,新的思路,或者说比我们做得更好的,我们可以借荐的地方。

InfoQ:除 Google、Bing 之外,国外还有一些其他搜索引擎,比如像 DuckDuckgo、WolframAlpha 等等,但是他们并不像 Google 和 Bing 这么成功,您觉得原因何在?

廖若雪:这些搜索引擎是在某一方面产生了突破,比如说在处理自然语言方面,或者说处理一些更复杂的结构化数据上面,会更加得力。但是我们知道:搜索引擎,现在已经不是一个小众的、或者能满足用户一部分就能做起来的产品。首先要满足用户大量的需求,如果对于比较通用的需求满足不好,只在某一方面有突破,其实没有办法作为用户日常使用的搜索引擎存在。

InfoQ:请您对参加“搜索新时代”和 ArchSummit 架构师峰会的参会者说几句话。

廖若雪:希望这个架构峰会办好,真正能使得做架构的同仁们在里面学到知识,真正解决问题,让大家一起讨论得比较开心,能够交到真正的朋友。

相关信息


给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2012-07-06 00:402021
用户头像

发布了 479 篇内容, 共 152.1 次阅读, 收获喜欢 47 次。

关注

评论

发布
暂无评论
发现更多内容

10 个打造 React.js App 的最佳 UI 框架

编程江湖

前端开发

(转)大数据开发之Hive中UDTF函数

@零度

大数据 hive

超市发:多措并举 提振销售 服务顾客

科技热闻

一站式云安全保障,就用行云管家!完美保障!

行云管家

云计算 云安全 企业上云 云资源 云管理

Linux云计算好学吗?Linux云计算运维学习资料,手把手教你学 条件测试语句和流程控制语句的使用

学神来啦

Linux centos Shell if linux云计算

30个类手写Spring核心原理之自定义ORM(下)(7)

Tom弹架构

Java spring 源码

30个类手写Spring核心原理之动态数据源切换(8)

Tom弹架构

Java spring 源码

「猿桌派」即将开播,聚焦客户端埋点和大数据分析

融云 RongCloud

大数据 程序员 埋点

波卡生态的去中心化存储Crust Network | Hoo虎符研究院

区块链前沿News

波卡生态挖矿 Hoo虎符 虎符交易所 虎符研究院 去中心化存储

在线JSON转Csharp工具

入门小站

工具

2021数据技术嘉年华 | OceanBase 技术盛宴ON LINE ,我们不见不散!

OceanBase 数据库

数据库 OceanBase 社区版 技术嘉年华 DTC

给弟弟的信第19封|年轻人要注意养生

大菠萝

28天写作

视频通信中的码率控制算法

拍乐云Pano

音视频 RTC 视频编码 码率控制

web技术分享| 白板SDK的几种图形检测算法

anyRTC开发者

前端 音视频 白板 web技术分享 图形检测算法

DotNet工具箱之性能监控组件——CLRStats

为自己带盐

dotnet 28天写作 12月日更

酷炫3D效果在瘦设备上也能实现?|HDC2021技术分论坛

HarmonyOS开发者

HarmonyOS

从 Discord 看未来社交的「超级群」模式

融云 RongCloud

Ajax+SSM实现客户端开发 实现简单的前后端分离

Bug终结者

Java ajax 前后端分离

恒源云(GPUSHARE)_[文本分类] 文本数据增强1(论文笔记)

恒源云

深度学习 语音识别

Linux之more命令

入门小站

Linux

【MongoDB学习笔记】-使用 MongoDB 进行 CRUD 操作(上)

恒生LIGHT云社区

数据库 mongodb

6000 字干货详解:直播聊天室的无限用户优化

融云 RongCloud

高并发 直播 直播聊天室 海量用户

🏆【Alibaba中间件技术系列】「RocketMQ技术专题」RocketMQ消息发送的全部流程和落盘原理分析

洛神灬殇

RocketMQ 消息队列 Apache RocketMQ 12月日更

「Oracle」数据库字符集编码修改

恒生LIGHT云社区

数据库 oracle

升级过log4j,却还没搞懂log4j漏洞的本质?

华为云开发者联盟

Java log4j 漏洞 JNDI rmi

从Hadoop框架讨论大数据生态

编程江湖

大数据 hadoop

化繁为简--百度智能小程序主数据架构实战总结

百度Geek说

小程序 百度 架构 后端 数据

实用机器学习笔记二十:偏差和方差

打工人!

机器学习 深度学习 算法 学习笔记 12月日更

熟悉又陌生的白帽黑客组织OWASP

喀拉峻

黑客 网络安全 安全 OWASP

【等保小知识】等保一级需要测评吗?

行云管家

网络安全 等保 等级保护 等保一级

如何跟踪log4j漏洞原理及发现绕WAF的tips

H

网络安全 漏洞

ArchSummit讲师专访:百度主任架构师廖若雪谈搜索新时代_百度_郑柯_InfoQ精选文章