写点什么

知乎首页已读数据万亿规模下高吞吐低时延查询系统架构设计

  • 2019-08-17
  • 本文字数:829 字

    阅读完需:约 3 分钟

知乎首页已读数据万亿规模下高吞吐低时延查询系统架构设计

QCon广州2019大会上,孙晓光讲师做了《知乎首页已读数据万亿规模下高吞吐低时延查询系统架构设计》主题演讲,主要内容如下。


演讲简介


知乎从问答起步在过去的 8 年中逐步成长为一个大规模的综合性知识内容平台,今天在知乎站上有多达 38 万个话题,超过 2800 万个问题总共收获了超过 1.3 亿个回答,同时知乎还沉淀了数量众多的优质文章、电子书以及其他付费内容。知乎通过个性化首页推荐的方式在海量的信息中高效的分发用户感兴趣的优质内容。为了避免给用户推荐重复的内容,首页会记录下所有给用户推荐过的内容长期保存。直至今天知乎已读的数据规模已超过万亿并以每天接近 30 亿的速度持续增长,实时、可靠且高效的存储和查询已读数据存在着诸多挑战。在过去的一年多已读服务的架构在承载着 40000/s 新数据写入的同时还支撑着峰值每秒 30000 条独立请求和 1200 万文档已读状态的查询,并且在大流量的冲击下响应时间依旧稳定维持在 P99 24ms 以及 P999 45ms 的低水位线。在本次演讲中我们会分享目前知乎已读服务的整体架构以及我们如何在这个架构上应对各种挑战满足业务需求,希望这个分享能为大家开拓解决类似问题的思路。


内容大纲


  1. 业务场景:知乎个性化首页利用已读过滤服务高效率分发用户未阅读过的优质内容 。

  2. 服务架构:知乎目前已读数据已经达万亿条量级并且还在以更快的加速度持续增长,而缓存系统则是万亿规模数据集高吞吐低时延的关键点。已读服务通过将缓冲智能化来应对数据频繁更新和数据高度稀疏对缓存系统在一致性和命中率方面的挑战。

  3. 原生分布式数据库的迁移代价和海量数据集下的收益。


听众受益


  1. 大量更新的海量数据缓存系统设计;

  2. 缓存一致性的考量和取舍;

  3. 原生分布式数据库的迁移成本和巨大收益。


讲师介绍


孙晓光


知乎 搜索后端负责人


知乎搜索后端负责人,目前承担知乎搜索后端架构设计以及工程团队的管理工作。曾多年从事私有云相关产品开发工作关注云原生技术,TiKV 项目 Committer。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2019/guangzhou/schedule


2019-08-17 00:009762

评论

发布
暂无评论
发现更多内容

电商难做?低代码开发平台为企业转型升级保驾护航

加入高科技仿生人

低代码 电商 数据管理 b2b

ChatGPT模拟MySQL数据库 | 社区征文

NineData

MySQL 数据库 编程 技术栈 ChatGPT

【2.17-2.24】写作社区优秀技术博文一览

InfoQ写作社区官方

热门活动 优质创作周报

3DMAX中的7个基本建模小窍门

Finovy Cloud

blender 3ds Max Cinema 4D

Python基础知识入门(二)

漫步桔田

公众号接入 chatGPT 教程(附源码)

攻城狮杰森

Python AI openai ChatGPT

活动报名:Tapdata Cloud V3 最新功能全解与核心应用场景演示

tapdata

ChatGPT对于普通人有什么机会和影响?

引迈信息

人工智能 AI AIGC ChatGPT

瓴羊Quick BI智能报表,让报表化复杂为简单!

巷子

不被同事骂的代码规范,程序员们值得拥有!

程序员小毕

Java 程序员 程序人生 架构师 代码

技术分享| anyRTC回声消除算法进化

anyRTC开发者

人工智能 音视频 回声消除 语音通话 视频通话

企业经常需要进行传输文件,大文件传输有哪些方法?

镭速

热点面试题:为什么 0.1+ 0.2 != 0.3,如何让其相等?

Immerse

JavaScript 面试 大前端 前端面试题 超全前端面试题

DevEco Studio端云协同开发之云函数

白晓明

HarmonyOS 端云协同 云函数

瓴羊Quick BI率先提供移动端自助分析整体解决方案,成为行业的领导者!

流量猫猫头

揭穿数据分析的六大谎言

葡萄城技术团队

手把手教你如何快速检测设备异常——实践类

阿里云AIoT

阿里云 物联网 IoT

Teradata在华落幕,国产化崛起,袋鼠云数栈会是更好的选择吗?

袋鼠云数栈

451个PyPI包通过安装Chrome扩展窃取加密信息

墨菲安全

供应链安全 投毒

阿里张勇:全力投入生成式AI大模型建设,为行业发展提供好算力支撑

阿里技术

人工智能 云计算

父母、离别

毛广斌

生活

Python 基础知识入门(三)

漫步桔田

DawnSql快速入门

陈飞

微服务 分布式数据库 实时数仓

设备掉线怎么办?数据分析让冰冷的设备“开口说话”——实践类

阿里云AIoT

阿里云 物联网 IoT

5分钟入门物联网大数据计算——实践类

阿里云AIoT

阿里云 物联网 IoT

LED屏逐点校正指南

Dylan

像素 LED显示屏 全彩LED显示屏

【kafka】常用命令汇总

石臻臻的杂货铺

kafka

NFTScan 与 KNN3 在 NFT 数据层面达成合作伙伴关系

NFT Research

NFT web3

Python基础知识入门(四)

漫步桔田

开源面对面:浅谈数据库技术与人工智能的结合与实践

阿里云数据库开源

postgresql 阿里云 PolarDB for PostgreSQL ChatGPT 数据库技术

知乎首页已读数据万亿规模下高吞吐低时延查询系统架构设计_QCon_孙晓光_InfoQ精选文章