写点什么

知乎首页已读数据万亿规模下高吞吐低时延查询系统架构设计

  • 2019-08-17
  • 本文字数:829 字

    阅读完需:约 3 分钟

知乎首页已读数据万亿规模下高吞吐低时延查询系统架构设计

QCon广州2019大会上,孙晓光讲师做了《知乎首页已读数据万亿规模下高吞吐低时延查询系统架构设计》主题演讲,主要内容如下。


演讲简介


知乎从问答起步在过去的 8 年中逐步成长为一个大规模的综合性知识内容平台,今天在知乎站上有多达 38 万个话题,超过 2800 万个问题总共收获了超过 1.3 亿个回答,同时知乎还沉淀了数量众多的优质文章、电子书以及其他付费内容。知乎通过个性化首页推荐的方式在海量的信息中高效的分发用户感兴趣的优质内容。为了避免给用户推荐重复的内容,首页会记录下所有给用户推荐过的内容长期保存。直至今天知乎已读的数据规模已超过万亿并以每天接近 30 亿的速度持续增长,实时、可靠且高效的存储和查询已读数据存在着诸多挑战。在过去的一年多已读服务的架构在承载着 40000/s 新数据写入的同时还支撑着峰值每秒 30000 条独立请求和 1200 万文档已读状态的查询,并且在大流量的冲击下响应时间依旧稳定维持在 P99 24ms 以及 P999 45ms 的低水位线。在本次演讲中我们会分享目前知乎已读服务的整体架构以及我们如何在这个架构上应对各种挑战满足业务需求,希望这个分享能为大家开拓解决类似问题的思路。


内容大纲


  1. 业务场景:知乎个性化首页利用已读过滤服务高效率分发用户未阅读过的优质内容 。

  2. 服务架构:知乎目前已读数据已经达万亿条量级并且还在以更快的加速度持续增长,而缓存系统则是万亿规模数据集高吞吐低时延的关键点。已读服务通过将缓冲智能化来应对数据频繁更新和数据高度稀疏对缓存系统在一致性和命中率方面的挑战。

  3. 原生分布式数据库的迁移代价和海量数据集下的收益。


听众受益


  1. 大量更新的海量数据缓存系统设计;

  2. 缓存一致性的考量和取舍;

  3. 原生分布式数据库的迁移成本和巨大收益。


讲师介绍


孙晓光


知乎 搜索后端负责人


知乎搜索后端负责人,目前承担知乎搜索后端架构设计以及工程团队的管理工作。曾多年从事私有云相关产品开发工作关注云原生技术,TiKV 项目 Committer。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2019/guangzhou/schedule


2019-08-17 00:009926

评论

发布
暂无评论
发现更多内容

大数据中,LED显示屏行业的两大服务和四大功能

Dylan

LED显示屏 户外LED显示屏 led显示屏厂家

【11.04-11.11】写作社区优秀技术博文回顾

InfoQ写作社区官方

热门活动

分布式数据库九大发展趋势|文末附完整报告下载

OceanBase 数据库

双机热备软件哪家好?有哪些功能?咨询电话多少?

行云管家

高可用 热备 双机热备

鸿蒙生态汇聚200万+开发者,金山办公、京东分享高效开发新体验

叶落便知秋

Web3.0 中的去中心化身份

开发微hkkf5566

深入理解数组的slice方法

好程序员IT教育

JavaScript 数组 slice

Apache ShenYu 集成 RocketMQ 实时采集海量日志的实践

Apache RocketMQ

RocketMQ 消息队列 Apache ShenYu

API 网关 Apache APISIX 3.0 版本正式发布!

API7.ai 技术团队

Apache 开源 APISIX 新版本/特性发布

TDSQL-C真·秒级启停:连接断了,又没断

腾讯云数据库

数据库 腾讯云 TDSQL-C 腾讯云数据库

华为全联接大会2022丨华为云打造可信认证体系,加速开发者成长

华为云开发者联盟

云计算 后端 华为云 企业号十月 PK 榜

面试还不懂JVM调优,看这篇文章就够了!

Java全栈架构师

程序员 性能优化 JVM java面试 jvm调优

性能测试岗位能力模型

老张

性能测试 胜任力模型

峰会实录 | 镜舟科技CEO孙文现:基于StarRocks打造企业级极速统一数据分析产品

StarRocks

数据库·

SpringCloudAlibaba 微服务组件 Nacos 之配置中心源码深度解析

程序员小毕

微服务 后端 nacos 架构师 java面试

开源的YAPI外还有哪些免费的接口工具?

Liam

开源 YAPI 接口工具 免费

计算机网络:随机访问介质访问控制之CSMA/CA协议

timerring

计算机网络 11月月更 CSMA CSMA/CA

Centos7 gcc4.8.5升级到版本gcc5.4.0

A-刘晨阳

Linux 运维 11月月更 gcc5.4

还不会日志异常检测?看完这篇文章就够了!

云智慧AIOps社区

人工智能 机器学习 大数据 日志分析 异常日志

Linux中gcc4.8.5升级到gcc5.4.0用已经编译好的安装包升级(重点是不用编译安装,可以更省时)

A-刘晨阳

Linux 运维 GCC 11月月更 gcc5.4

用技术为内容注入生命力,华为视频持续升级影音体验

科技汇

React-Native 开发实用指南

环信

前端 开发 React Native Android;

久等了,青年技术沙龙北京发车!

小红书技术REDtech

探讨:2023 年 WEB 3 的 5 大趋势

开发微hkkf5566

科普|渲染农场与超级计算机有什么不同?

Finovy Cloud

人工智能 深度学习 图像处理 云渲染 渲染农场

实践一年之久,vivo 如何基于 APISIX 进行业务基础架构的演进

API7.ai 技术团队

开源 云原生 API网关 APISIX 客户案例

集合管道模式(上)

冰心的小屋

集成管道模式 pipline

保定有几家等保测评机构?咨询电话多少?

行云管家

等保测评 等级测评 等保测评机构 保定

如何通过Java 在 Word 中更改字体颜色

Geek_249eec

word java;

【杭州专场】蚂蚁单测自动生成产品体验活动招募开启

TRaaS

如何使用清源 CleanSource SCA 管理开源风险

安势信息

SCA SBOM 清源CleanSource SCA 开源风险

知乎首页已读数据万亿规模下高吞吐低时延查询系统架构设计_QCon_孙晓光_InfoQ精选文章