写点什么

知乎首页已读数据万亿规模下高吞吐低时延查询系统架构设计

  • 2019 年 8 月 17 日
  • 本文字数:829 字

    阅读完需:约 3 分钟

知乎首页已读数据万亿规模下高吞吐低时延查询系统架构设计

QCon广州2019大会上,孙晓光讲师做了《知乎首页已读数据万亿规模下高吞吐低时延查询系统架构设计》主题演讲,主要内容如下。


演讲简介


知乎从问答起步在过去的 8 年中逐步成长为一个大规模的综合性知识内容平台,今天在知乎站上有多达 38 万个话题,超过 2800 万个问题总共收获了超过 1.3 亿个回答,同时知乎还沉淀了数量众多的优质文章、电子书以及其他付费内容。知乎通过个性化首页推荐的方式在海量的信息中高效的分发用户感兴趣的优质内容。为了避免给用户推荐重复的内容,首页会记录下所有给用户推荐过的内容长期保存。直至今天知乎已读的数据规模已超过万亿并以每天接近 30 亿的速度持续增长,实时、可靠且高效的存储和查询已读数据存在着诸多挑战。在过去的一年多已读服务的架构在承载着 40000/s 新数据写入的同时还支撑着峰值每秒 30000 条独立请求和 1200 万文档已读状态的查询,并且在大流量的冲击下响应时间依旧稳定维持在 P99 24ms 以及 P999 45ms 的低水位线。在本次演讲中我们会分享目前知乎已读服务的整体架构以及我们如何在这个架构上应对各种挑战满足业务需求,希望这个分享能为大家开拓解决类似问题的思路。


内容大纲


  1. 业务场景:知乎个性化首页利用已读过滤服务高效率分发用户未阅读过的优质内容 。

  2. 服务架构:知乎目前已读数据已经达万亿条量级并且还在以更快的加速度持续增长,而缓存系统则是万亿规模数据集高吞吐低时延的关键点。已读服务通过将缓冲智能化来应对数据频繁更新和数据高度稀疏对缓存系统在一致性和命中率方面的挑战。

  3. 原生分布式数据库的迁移代价和海量数据集下的收益。


听众受益


  1. 大量更新的海量数据缓存系统设计;

  2. 缓存一致性的考量和取舍;

  3. 原生分布式数据库的迁移成本和巨大收益。


讲师介绍


孙晓光


知乎 搜索后端负责人


知乎搜索后端负责人,目前承担知乎搜索后端架构设计以及工程团队的管理工作。曾多年从事私有云相关产品开发工作关注云原生技术,TiKV 项目 Committer。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2019/guangzhou/schedule


2019 年 8 月 17 日 00:007367

评论

发布
暂无评论
发现更多内容

警惕商标到付快递的骗局

石云升

商标 诈骗 6月日更

网络研讨会|想弄明白应用安全?我们为你准备了5个锦囊!

鉴释

DevSecOps 安全编码规范 应用安全 静态分析

全面赋能泛娱乐社交场景

anyRTC开发者

音视频 WebRTC 泛娱乐社交

一文讲全了Python类和对象内容

华为云开发者联盟

Python

用 Go struct 不能犯的一个低级错误!

煎鱼

Go 语言

校友会小程序开发笔记五:找校友功能模块设计与实现

CC同学

校友录小程序

Android客户端网络预连接优化机制探究

vivo互联网技术

android TCP HTTP

使用 Python 对数据进行压缩

★忆先★

Python3.10中的结构化模式匹配语法

★忆先★

Python

为什么服务实例在隔离之后还在继续处理请求?

BUG侦探

TCP 半关闭连接 接收缓存

朋友乔迁住新房 禧大福酒竟成为宴席最大赢家

Geek_50a546

一文介绍备机重建各种方法的实现机制

华为云开发者联盟

主机 集群 GaussDB(DWS) 备机重建 备机

Keepalived+Nginx 搭建高可用集群

逸少

nginx 高可用 keepalive

TcaplusDBx 黎明觉醒|一路相伴,不负期待

TcaplusDB

nosql tencentdb TcaplusDB

向996宣战!快乐工作,健康生活的互联网要来了吗?

架构精进之路

话题讨论 话题 996 6月日更

使用poetry进行Python项目开发

★忆先★

Python

【TcaplusDB】世界难民日——愿所有人都被温柔以待

TcaplusDB

数据库 nosql tencentdb TcaplusDB

Python——字典的遍历

在即

6月日更

JAVA笔记(四)--三大结构语句

加百利

Java 后端 6月日更 结构语句

初探Deno.js

★忆先★

deno

算法导论的道与术、工程师思维奠定能走多远-John 易筋 ARTS 打卡 Week 51

John(易筋)

ARTS 打卡计划

TcaplusDB小知识之TcaplusDB架构简介

数据人er

数据库 nosql tencentdb TcaplusDB

保姆级教学,22张图揭开ThreadLocal

程序猿阿星

内存泄露 ThreadLocal 线程安全 弱引用 ThreadLocalMap

重塑价值:新一代ITSM平台的建设、咨询与实施

云智慧AIOps社区

ITSM 智能运维

Java 连接操作 MySQL 数据库(增删查改操作)

若尘

MySQL 数据库 java编程 驱动 6月日更

专访关涛:阿里EB级大数据体系,背后的计算平台竟是这样(采访提纲)

花花

试用期 签约计划

HarmonyOS Connect伙伴峰会于厦门举办 硬件生态快速发展

科技汇

智慧水务|大坝水利可视化管理,综合态势一屏掌握

一只数据鲸鱼

数据可视化 智慧水务 三维可视化 水利 水力发电

线上程序cpu占用过高、程序死锁,该如何定位问题?

码农架构

知乎首页已读数据万亿规模下高吞吐低时延查询系统架构设计_QCon_孙晓光_InfoQ精选文章