【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

专访头条搜索:从推荐到搜索,如何构建搜索技术的另一种可能?

  • 2020-05-08
  • 本文字数:3231 字

    阅读完需:约 11 分钟

专访头条搜索:从推荐到搜索,如何构建搜索技术的另一种可能?

今日头条又将搜索业务往前推进了一步。4 月 30 日,今日头条宣布上线“头条百科”测试版。界面简洁,除了搜索框外,只有一个 Slogan:来这里,认识世界!


这是头条搜索继 2019 年 8 月推出头条搜索网页版,2020 年 2 月上架头条搜索 APP 之后的新动作。仅经过一年多的发展,尽管没有大肆宣传,头条搜索也吸引了不少用户的注意,在用户体验方面也获得了用户的肯定。


关于头条搜索的相关技术,在外界极少量的资料中,我们看到朱文佳在他的演讲中提到:“我们建立了一套业界独有的搜索技术架构,我们从推荐引擎上探索出机器学习的方案,然后把这套技术架构和底层算法迁移到搜索引擎上,发现效果也很好。“


实际上,今日头条于 2017 年才开始组建搜索技术团队,头条搜索如何在这么短的时间里,做到这种效果?他们的搜索引擎到底与传统引擎有何不同?头条搜索是否打造出自己“理想的搜索中台架构”?


为此,InfoQ 独家采访了今日头条搜索技术部门,这也是头条搜索技术团队第一次接受外界采访。

从推荐到搜索

从 2012 年开始,今日头条开始做推荐引擎。而到了 2016 年,在资讯信息分发市场上,有 50%的内容分发是通过算法来完成的。


智能推荐引擎通过算法,综合用户特征、文章特征、环境特征,得出用户对内容感兴趣的概率,返回 TopN 的结果满足用户的需求。今日头条从无到有搭起平台,随着大数据技术的发展,在 2014 年及时引入实时流架构,用户的行为信息可以被模型快速捕捉并反馈至下一次刷新的推荐效果。


从成立开始,这家企业就开始大量招募擅长机器学习、推荐算法的技术人才。当时互联网还正处于招移动端、iOS 技术人员的阶段,有猎头评价:“很多人认为他们疯掉了”。


实际上,这些人才为推荐系统底层算法打下了基础。


随后,今日头条在构建搜索系统架构时,将从推荐引擎上探索出的技术架构和底层算法迁移到搜索引擎上。“发现效果也很好。”今日头条 CEO 朱文佳在演讲中说。


头条搜索技术团队负责人在采访里表示:“推荐和搜索有一些相通的地方,背后都要有 AI 来理解用户的需求和内容,理解的越清楚,就越能帮助到用户。像大规模机器学习、深度学习、实时更新等推荐上成功应用的方法,都是建模用户、内容的有效方法。所以将这些技术应用到搜索上,也会取得不错的效果。”


实时更新也是传统搜索引擎的短板。最近几年随着 Storm、Spark streaming、Flink 等框架的成熟,实时流处理才能成为各公司 AI 平台的标配。


现在实时架构同样也被引入到头条搜索的搜索引擎里。“基于新闻推荐时效性的理解和经验,我们在搜索上也研发了全量实时更新的百亿倒排索引架构,大幅提升了内容的时效性,大事件发生时,往往最先能在头条搜索到。”头条搜索技术团队负责人表示。


即便如此,推荐与搜索还是存在不少差异。头条搜索技术团队负责人在采访中指出:“搜索要解决好长尾问题,不能过度依赖用户的行为反馈去理解特定的查询词、网页,而是需要寻找更泛化的方法。为了让通用技术发挥优势,也需要把搜索上特有的问题理解得更加充分,例如怎么做好对多语言的理解,怎么在万亿网页的检索系统中权衡好 Explore/Exploit,怎么在性能要求苛刻的场景中应用好复杂模型等等。另一方面,在推荐上目前不一定那么有效的方法,在搜索上却有可能大展拳脚,例如强化学习、迁移学习。整体来看,搜索系统复杂多样,对技术的广度、深度有非常高的要求,发挥的空间也更大。”

新技术应用

很多新技术还没有被充分用到搜索引擎里去。”


作为全球最大的搜索引擎公司,Google 也是我们公认的大数据鼻祖,它存储着全世界几乎所有可访问的网页,数目可能超过十万亿规模。为了将这些文件存储并使用起来,Google 开发了 GFS、Bigtable 和 MapReduce 三驾马车。从此大数据得以繁荣发展,行业里也产生了数百万大数据从业需求。随着数据采集、存储、计算能力的提升,进一步开启了“AI 时代”。


搜索引擎的进化史,就是人工智能技术的进化史。今天,无论是搜索、还是信息流,所用的技术完全都是人工智能技术,包括谷歌在内的搜索引擎厂商,都在不断将人工智能新技术应用到搜索引擎中。


头条搜索在新技术应用上,也做了很多大胆的尝试。


例如,BERT 是 2018 年时 Google 在 NLP 上的一个重要突破,2019 年 10 月,Google 宣布将 BERT 算法应用到搜索引擎中,搜索结果得到了 10%的提升。Google 宣称这是 Google 搜索引擎过去五年中最大、最正向的变化,而且也许是有史以来最大的变化。


但 Google 并不是第一家将 BERT 应用在搜索引擎里的,头条搜索技术团队负责人在采访中提到:“早在 2019 年初,头条搜索就已经将 BERT 在头条搜索上全流量应用,并且获得了显著的效果提升。上线得比 Google 更早,依靠的是大家大胆创新和快速迭代。”


此外,头条搜索技术团队负责人也认为,AI 技术能够更好的对问题进行端到端建模,例如网页内容的理解,传统方法会对这一问题进行不断细分,基于 HTML 结构等信息,对不同的子任务应用不同的规则,反复迭代来提升效果。而利用 AI 技术,头条搜索将网页渲染成图片,联合视觉、文本、HTML 结构等特征,对相似任务进行统一的端到端建模和多任务学习,大幅提高了分类、信息抽取的效果和效率。


头条搜索技术团队负责人表示,头条搜索技术团队也在继续借助 AI 探索更多的搜索引擎技术问题,例如多模态技术是否可端到端地搜索出更相关的图片、小视频;抓取、索引构建系统有没有可能基于模型重新设计;强化学习是否能让搜索排序更加智能并节约计算成本等等。

搜索的另一种可能

如果有这么一个可能,就是让老牌搜索引擎厂商在发展二十年后重做搜索系统,那么新的搜索系统会有什么不同?


搜索引擎是极其复杂的大工程,它通常都要将整个系统分解为若干子系统,比如会分解为链接发现、索引筛选、Query 理解、Ranking 等步骤。每一步骤内部又会进一步分解,这个过程可以无限分解下去,由不同的人和团队分工解决。但这个过程有个致命缺点,在每一步的分解过程中都会有信息损失,最后联合起来导致整个系统不能达到最优状态,比如 A 步骤精度 90%、B 步骤精度 90%、对接起来最终系统精度可能只有 80%。


这种精分细解,是传统搜索引擎受限于当时的技术手段,为了有效开展工作、更好地提升产品效果采取的技术决策,这在当时是非常正确的。“但精度不足,也限制了传统搜索引擎进一步提升效果。”在谈到传统搜索引擎的缺陷时,头条搜索技术团队负责人提到。


现在做搜索引擎,头条搜索技术团队负责人告诉 InfoQ,头条搜索技术团队主要有三个优势:


第一,会更大胆地探索 AI 技术。相对传统搜索引擎的局限,今日头条倾向于对系统有限分解,重度使用前沿 AI 技术进行端到端的问题建模,系统性降低效果损失。


第二,没有历史的包袱,才有机会去重新审视一个合理的搜索引擎架构应该如何设计、如何避免走弯路、容纳新技术,并且有足够高的研发效率。头条在短时间就让搜索效果进入第一梯队,合理的架构发挥了很大的作用。


头条搜索还组建了专门的工程架构团队,专注于分布式系统、机器学习系统的构建和性能优化。一些深入到内存、SSD、Disk 甚至一些新硬件的优化,或一些对倒排索引压缩、召回等算法的底层优化,大幅降低了硬件成本,提升了搜索速度和稳定性。


第三,优秀的团队和合理系统设计保证了“迭代效率”。头条搜索技术团队的目标是建设一个服务于全公司的搜索技术中台,在对标谷歌做一流全网搜索引擎的同时,也全力提升抖音、西瓜等产品的搜索体验。虽然现在头条搜索技术团队人数不到 200 人,却聚集了很多 Google、百度、360、Bing 这些老牌搜索公司的核心技术骨干,同时还有不少今日头条原推荐、广告、AI Lab 团队的核心成员,以及一批非常优秀的校招生,他们近 30%来自于清华北大。


为了保证“迭代效率”,头条搜索目前每周都会对线上进行数十次的优化更新,一些从其他搜索引擎公司加入头条搜索技术团队的同学表示,以前需要半年以上时间上线的项目,在头条搜索只需要几周。当然,快速的迭代也更容易犯错,头条搜索也设计了更多的稳定性机制,提前避免出错并大幅降低错误的影响,让问题可控,也让团队敢放开手脚。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-05-08 18:253401

评论

发布
暂无评论
发现更多内容

天翼云为欧拉社区贡献首个C++热补丁 加速推进联创技术落地应用

天翼云开发者社区

【赛事预告】云上开发,高效智能——第二届阿里云ECS CloudBuild开发者大赛即将启动

阿里云弹性计算

开发者大赛 自动化运维 云上运维 机密计算 内存缓存

详解GPU虚拟化技术

Finovy Cloud

人工智能 云渲染 GPU服务器

2022,云上开发新纪元

Heighliner

云原生 #k8s 开发者, 远程开发

基于EasyCV复现ViTDet:单层特征超越FPN

阿里云大数据AI技术

自然语言处理 异构计算 深度学习/机器学习 编译码

安心+10000

天翼云开发者社区

What are the uses of LED display?

Dylan

LED LED display

云原生存储解决方案Rook-Ceph与Rainbond结合的实践

北京好雨科技有限公司

Kubernetes PaaS Ceph rainbond

改变世界的开发者丨以梦为码,华工小哥的致青春

华为云开发者联盟

数据库 华为云

传统企业数字化转型,到底难在哪里?

SoFlu软件机器人

手慢无!‘’阿里爸爸‘’6月最新开源新版Spring Cloud Alibaba全体系10w字全彩笔记

Java全栈架构师

Java 程序员 面试题 架构师 SpringCloud

Python接口自动化核心模块 - 数据库操作和日志

伤心的辣条

程序员 程序人生 软件测试 接口测试 Python自动化测试

【ELT.ZIP】OpenHarmony啃论文俱乐部—硬件加速的快速无损压缩

ELT.ZIP

OpenHarmony 压缩算法 ELT.ZIP 啃论文俱乐部

Vue-9-计算属性的属性

Python研究所

6月月更

主数据管理平台功能模型介绍

agileai

Java 数据治理 数据模型 主数据平台 功能模型

Elux-从"微前端"到“微模块”

hiisea

前端框架 微前端 微模块 elux

小程序容器技术,加速工业互联网平台建设

Geek_99967b

小程序 工业互联网 小程序容器

数字先锋 | 牵手中资医疗医药,开创医疗医药应急保障服务新格局

天翼云开发者社区

数字先锋| 助力打造国有资本运营升级版 中国国新构建数字化转型新格局

天翼云开发者社区

EMQ作为首批创始会员单位,加入SAP可持续发展与实践战略联盟

EMQ映云科技

物联网 IoT SAP emq 6月月更

详解MOVE PROTOCOL的测试版,让健康运动如影随形

鳄鱼视界

青藤“基于工业互联网的安全方案”成功入选信通院守卫者计划

青藤云安全

主机安全 互联网安全

【ELT.ZIP】OpenHarmony啃论文俱乐部—一种深度神经网压缩算法

ELT.ZIP

OpenHarmony 压缩算法 ELT.ZIP 啃论文俱乐部 深度神经网

实战邮件攻击简要分析【网络安全】

网络安全学海

网络安全 安全 渗透测试 WEB安全 漏洞挖掘

直播场景音频降噪,传统算法 VS AI 算法对比和实践

融云 RongCloud

从概念到安全实践:软件供应链基础指南

SEAL安全

DevOps 安全 DevSecOps 软件供应链

先睹为快 | 卓越示范中心ETB003云原生安全实验测试床

青藤云安全

容器安全 信通院 云原生安全

天翼云电脑打造极致流畅与安全 助企业数字办公升级

天翼云开发者社区

天人合一物我相融,站点升级渐进式Web应用PWA(Progressive Web Apps)实践

刘悦的技术博客

前端 App 应用 Web JS SDK PWA

Charles 工具如何做断点测试

伤心的辣条

Python 程序人生 软件测试 自动化测试 接口测试

什么是真正的敏捷开发?敏捷开发与瀑布开发有何不同

阿里云云效

云计算 阿里云 敏捷开发 研发 开发模式

专访头条搜索:从推荐到搜索,如何构建搜索技术的另一种可能?_AI&大模型_Tina_InfoQ精选文章