写点什么

知乎首页已读数据万亿规模下高吞吐低时延查询系统架构设计

  • 2019-08-17
  • 本文字数:829 字

    阅读完需:约 3 分钟

知乎首页已读数据万亿规模下高吞吐低时延查询系统架构设计

QCon广州2019大会上,孙晓光讲师做了《知乎首页已读数据万亿规模下高吞吐低时延查询系统架构设计》主题演讲,主要内容如下。


演讲简介


知乎从问答起步在过去的 8 年中逐步成长为一个大规模的综合性知识内容平台,今天在知乎站上有多达 38 万个话题,超过 2800 万个问题总共收获了超过 1.3 亿个回答,同时知乎还沉淀了数量众多的优质文章、电子书以及其他付费内容。知乎通过个性化首页推荐的方式在海量的信息中高效的分发用户感兴趣的优质内容。为了避免给用户推荐重复的内容,首页会记录下所有给用户推荐过的内容长期保存。直至今天知乎已读的数据规模已超过万亿并以每天接近 30 亿的速度持续增长,实时、可靠且高效的存储和查询已读数据存在着诸多挑战。在过去的一年多已读服务的架构在承载着 40000/s 新数据写入的同时还支撑着峰值每秒 30000 条独立请求和 1200 万文档已读状态的查询,并且在大流量的冲击下响应时间依旧稳定维持在 P99 24ms 以及 P999 45ms 的低水位线。在本次演讲中我们会分享目前知乎已读服务的整体架构以及我们如何在这个架构上应对各种挑战满足业务需求,希望这个分享能为大家开拓解决类似问题的思路。


内容大纲


  1. 业务场景:知乎个性化首页利用已读过滤服务高效率分发用户未阅读过的优质内容 。

  2. 服务架构:知乎目前已读数据已经达万亿条量级并且还在以更快的加速度持续增长,而缓存系统则是万亿规模数据集高吞吐低时延的关键点。已读服务通过将缓冲智能化来应对数据频繁更新和数据高度稀疏对缓存系统在一致性和命中率方面的挑战。

  3. 原生分布式数据库的迁移代价和海量数据集下的收益。


听众受益


  1. 大量更新的海量数据缓存系统设计;

  2. 缓存一致性的考量和取舍;

  3. 原生分布式数据库的迁移成本和巨大收益。


讲师介绍


孙晓光


知乎 搜索后端负责人


知乎搜索后端负责人,目前承担知乎搜索后端架构设计以及工程团队的管理工作。曾多年从事私有云相关产品开发工作关注云原生技术,TiKV 项目 Committer。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2019/guangzhou/schedule


2019-08-17 00:009756

评论

发布
暂无评论
发现更多内容

[ABAQUS有限元分析]挤扩支盘桩支护基坑优化设计方法

思茂信息

abaqus abaqus软件 abaqus有限元仿真

ChatGPT与软件架构(5) - 网络安全

俞凡

人工智能 架构 网络安全 ChatGPT

云图说|ModelArts开发环境,让AI开发、探索、教学更简单

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 6 月 PK 榜

2023开放原子全球开源峰会“开发者之夜”高能剧透!

开放原子开源基金会

开源 开放原子全球开源峰会 开发者之夜

从飞书妙记秒开率提升,看火山引擎A/B测试在研发场景的应用

字节跳动数据平台

AB testing实战 A/B 测试

Ascend C sqrt算子实战

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 6 月 PK 榜

一分钟学会C4D与Blender做缝线的方法

Finovy Cloud

blender C4D

制作Jdk镜像

tiandizhiguai

Docker k8s 镜像

只见新人笑,不见旧人哭 ChatGPT淘汰了多少产品?快来了解!

加入高科技仿生人

人工智能 AI 低代码 ChatGPT

质量内建实践的八大特质

老张

质量保障 质量内建

中企出海,海外税务管理体系怎么设计?

用友BIP

中企出海

为什么说财务共享中心是财务转型的支撑

用友BIP

财务共享

用友荣获“2023年度上市公司数字化转型优秀案例”

用友BIP

响应式编程的复杂度和简化

阿里技术

响应式编程

软件测试/测试开发丨Pytest测试框架学习笔记分享

测试人

程序员 软件测试 自动化测试 数据驱动 pytest

【网易云信】如何定位分析视频异常画面

网易云信

音视频技术 视频异常

Springboot3 + SpringSecurity + JWT + OpenApi3 实现认证授权

京茶吉鹿

spring security springboot OpenAPI JWT

【网易云信】如何定位分析视频异常画面

网易智企

音视频技术 视频异常

DataLeap的全链路智能监控报警实践(一):常见问题

字节跳动数据平台

数据挖掘 数据分析 DataLeap 数据运维

本机部署langchain+chatGLM本地知识库

IT蜗壳-Tango

6 月 优质更文活动

卡奥斯开源社区六月创作之星挑战赛开始啦!

Openlab_cosmoplat

人工智能 编程 活动 开源社区

企业数智底座白皮书:详解数智平台必备的六大能力

用友BIP

白皮书 数智平台 数智化转型白皮书 数智平台白皮书

昇腾实战丨DVPP媒体数据处理图片解码问题案例

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 6 月 PK 榜

flutter系列之:做一个会飞的菜单

程序那些事

flutter 架构 程序那些事

干货 | Mysql binlog插件三种数据采集模式介绍

大河

MySQL 数据采集 Binlog bboss

#架构实战营# 模块1 作业

Zz

架构实战营 学生管理系统架构

API全场景零码测试机器人,华为云发布ATGen in CodeArts TestPlan

华为云开发者联盟

云计算 华为云 华为云开发者联盟 企业号 6 月 PK 榜

INFINI Easysearch 完成龙芯架构兼容性认证

极限实验室

搜索引擎 国产化 龙芯 easysearch 极限科技

腾讯董志强出席全国信安标委“标准周”:数字化转型需要高安全等级架构

腾讯安全云鼎实验室

云安全 企业安全 安全标准

人才是企业决胜的关键,企业进行全球布局时,如何解决人才供应问题?

用友BIP

人力资源 数智人力

知乎首页已读数据万亿规模下高吞吐低时延查询系统架构设计_QCon_孙晓光_InfoQ精选文章