阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

Reddit 每日千亿请求背后的故事

  • 2021-06-08
  • 本文字数:2437 字

    阅读完需:约 8 分钟

Reddit 每日千亿请求背后的故事

多年来,Reddit 已经发展成互联网世界一片广阔而多样化的土地。Reddit 的核心是众多社区组成的网络。从你时间线的内容到整个站点的无数讨论中反映的文化,社区犹如 Reddit 流动的血液,让它变成今天这个模样。Reddit 多年来的增长给一直以来为我们服务的数据处理和服务系统带来了极大压力。


本文介绍了我们构建适应 Reddit 规模系统的历程,并会谈到为什么这一历程是寻找更佳途径的必要之路。

需求

探索新去处从来不是什么舒舒服服就能做到的事情。无论是学习新主题,还是探索不一样的环境,我们都曾在某种程度上体验过那种喘不过气的感觉。这种感受让我们退缩,直到我们找到了合适的路径来帮助我们探索新的地域。


Reddit 具备的庞大规模和多样性,一开始可能很容易让人头晕。如果 Reddit 是一个城市,则 r/popular 页面就会是市政厅,你可以在其中看到那些吸引最多讨论的内容。这里是新用户首次体验 Reddit 的去处,也是我们的核心用户偶然发现新社区,进而添加到他们丰富收藏中的地方。reddit.com 上的 home feed 相当于一个社区公园,每位用户都可以根据他们订阅的内容获得个性化的推荐内容。对我们用户来说,这些 feed 是重要的指南,可帮助他们浏览 Reddit 并发现与他们的兴趣相关的内容。

挑战

在 2016 年,我们的机器学习模型开始向用户推荐与他们相似的人们所喜欢的讨论和内容。这促进了新内容和社区的发展,进而让人们意识到 Reddit 彼时还应该提供哪些事物。


随着更多多样化的内容被发布到平台上,我们一开始采用的方法开始不堪重负。今天,Reddit 上的内容在几分钟之内就会完全改变;而与某位用户相关的内容可能会根据他们最近访问的内容而改变。


Reddit 上的用户群体比以往任何时候都更加多样化。具有各种各样的背景、信仰和处境的人们每天都会访问 Reddit。此外,我们用户的兴趣和态度会随着时间而改变,并期望他们的 Reddit 体验能反映出这种变化。


我们的传统方法并没有提供个性化的 Reddit 体验以适应这种动态环境。考虑到正在发生的变化,我们意识到我们正在迅速接近一个转折点。

重构

要构建我们用户所喜欢的东西:


  • 我们的 feed 需要在每个用户加载时为他们送上量身定制的内容

  • 我们的系统需要适应用户兴趣、态度和消费方式的变化

  • 我们必须迅速接收用户的反馈并改进底层系统


为此,我们将用户个性化实现细分为一系列有监督的学习子任务。这些子任务让我们的系统能学习一套通用的个性化策略。为帮助我们迭代地学习这一策略,我们建立了一个闭环系统(如下图所示),其中每个实验都基于先前的学习:



这一系统由四大关键组件组成。这些组件可以共同为每位 Reddit 用户生成个性化的 feed 体验。进一步来看每个组件的细节:


用户活动库(User Activity Library):该组件可帮助我们清理和构建数据集。这些数据集用于训练多任务深度神经网络模型,这些模型学习个性化实现所需的一个子任务集合



这些数据集包含一些在有限的时间范围内按每个用户、每个帖子汇总的特征(如上图所示)。在这些数据集上,训练的模型会同时嵌入用户、subreddit、帖子和用户上下文,从而使它们能针对特定情况预测用户操作。例如,对于每位 Reddit 用户,模型都可以分配一个用户对任意新帖子投票的概率,同时还可以分配一个用户订阅某个 subreddit 的概率,以及他们是否会对帖子发表评论的概率。这些概率可用于估计一些长期度量,例如留存率。


在 Reddit 中,多任务模型变得尤为重要。用户以多种方式与多种类型的内容互动,而互动水平(engagement)则告诉我们他们重视哪些内容和社区。这种类型的训练还能隐式地捕获了负面反馈——用户选择不参与的内容、投出的反对票或他们退订的社区。


我们使用简单的梯度下降式优化(像 TensorFlow 提供的那样)训练我们的多任务神经网络模型(如下所示的示例架构)。在 Reddit,我们将顺序蒙特卡洛算法放在最上面,以在给定子任务集合的情况下搜索模型拓扑。这让我们可以轻装上阵,并系统地探索搜索空间,以证明深度和多任务结构的相对价值。



Gazette——特征存储和模型预测引擎:鉴于时间限制和预测所需的数据规模,我们的特征存储和模型位于同一微服务中。该微服务负责协调在每个 GET 请求期间进行预测所涉及的各个步骤。


我们有一个系统,使 Reddit 的任何员工都可以轻松创建新的机器学习特征。这些特征被创建后,该系统将负责以高效的方式更新、存储这些特征并将其提供给我们的模型。


对于实时特征,一套基于 Kafka 管道和 Flink 流处理的事件处理系统直接实时消费每个关键事件来计算特征。与批量特征类似,我们的系统会以高效的方式将这些特征供模型使用。


该组件可保持 99.9%的正常运行时间,并以 p99/不足 100 毫秒的速度构建一条 feed。这意味着这套设计在我们扩展到处理每天万亿计的推荐时性能依旧稳定。


模型评估和监视:当你每天需要做出数十亿次预测时,出现错误是肯定的。鉴于 Reddit 的规模,一些显而易见的事情(记录每个预测、实时分析模型行为并确定漂移)变得非常具有挑战性。扩展系统的这个组件时我们需要考虑很多事情,并且正在积极研究中。


计划:在每个实验周期中,我们都在寻找改进方法,以让每个迭代都比过去更好。我们会查看来自模型的数据,以便更好地回答以下问题:


  • 我们可以在模型中添加哪些新任务,以更好地了解用户策略?

  • 我们可以在当前系统中添加或删除哪些新组件,以使当前系统更加成熟?

  • 我们可以发起哪些新的实验,以便更多地了解我们的用户?

下一步计划

随着世界的不断变化,我们对 Reddit 平台做出了很多改进:


  • 为每位用户提供更相关的内容。

  • 加入可能会增强用户体验的实时更改。

  • 为了提高迭代速度,我们改进了底层系统。


“演变(Evolve)”是 Reddit 所有员工推崇的一项核心价值。该系统不仅使我们能够应对平台不断增长的规模,而且能够以更快的速度尝试不同的方法。接下来的计划将涉及更大规模的实验,让我们可以更好地了解这片虚拟地域对我们的用户而言为什么如此特别。


我们相信我们只是迈出了第一步,而我们最重要的变革尚未到来。


原文链接:


https://www.reddit.com/r/RedditEng/comments/neknjg/evolving_beyond_100_billion_recommendations_a_day/?fileGuid=TtYJ6HHHq9VQpT9Y

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2021-06-08 17:372462
用户头像
王强 技术是文明进步的力量

发布了 788 篇内容, 共 377.8 次阅读, 收获喜欢 1715 次。

关注

评论

发布
暂无评论
发现更多内容

Hybird App开发,纯血鸿蒙系统兼容救星

Geek_2305a8

如何用云手机运营Facebook账号

Ogcloud

云手机 海外云手机 云手机海外版 国外云手机 跨境云手机

个人开发App成功上架手机应用市场的关键步骤

雪奈椰子

三款.NET代码混淆工具比较分析:ConfuserEx、Obfuscar和Ipa Guard

雪奈椰子

如何在Docker容器启动时自动运行脚本

华为云开发者联盟

Docker 开发 华为云 华为云开发者联盟

得嘞,分页插件PageHelper返回记录总数total竟然出错了!

京东科技开发者

体育赛事直播平台:开发新增短视频模块,影响竟然这么大

软件开发-梦幻运营部

如何借助API提升产品设计的用户体验

Noah

Debezium vs OGG vs Tapdata:如何实时同步 Oracle 数据到 Kafka 消息队列?

tapdata

同步 Oracle 数据到 Kafka Oracle 到 Kafka Kafka 数据同步方案 Oracle 数据同步工具

云原生最佳实践系列2:基于 MSE 云原生网关同城多活

阿里巴巴云原生

阿里云 云原生 云原生网关

AWE2024,中国家电智能化的《山海经》

白洞计划

智能家居

Solidity案例详解(六)食品溯源合约

BSN研习社

区块链 Solidity

[每日秒懂] 软件工程

dinstone

DevOps 敏捷开发 软件工程 持续交付 持续部署

数据中台应具备哪些功能?

京东科技开发者

万界星空科技商业开源MES,技术支持+项目合作

万界星空科技

开源 mes 开源mes 万界星空科技 商业开源

亚马逊云科技与英伟达扩展合作 持续推进生成式AI创新

财见

面试官:Kafka和ES选主有什么区别?

王磊

Java 面试

软件测试学习笔记丨Pytest–Fixture特点及优势

测试人

软件测试

云PBX的介绍

ctsxiyou

通信 通讯 云pbx 云通讯

深入理解Sora技术原理

得物技术

AIGC sora

倒排索引关键点普及

京东科技开发者

.NET开源免费的Windows快速文件搜索和应用程序启动器

EquatorCoco

C# .net 开源

海外云手机如何帮助亚马逊引流?

Ogcloud

云手机 海外云手机 云手机海外版 电商云手机 跨境云手机

海外客户获取难?海外云手机助力电商营销引流!

Ogcloud

云手机 海外云手机 云手机海外版 电商云手机 跨境云手机

盘点|《数据安全法》的26部配套立法(附下载)

极盾科技

数据安全

生成大边界不重复随机整数

waitmoon

伪随机函数 随机数

东郊到家服务系统开发

l8l259l3365

【AAAI 2024】M2Doc:文档版面分析的可插拔多模态融合方法

阿里云大数据AI技术

小程序应用市场的发展演变

FinFish

应用市场 小程序应用市场 移动应用市场

软件测试学习笔记丨Python中执行pytest

测试人

软件测试

鸿蒙HarmonyOS实战-工具安装和Helloworld案例

不在线第一只蜗牛

HarmonyOS 鸿蒙开发 鸿蒙系统

Reddit 每日千亿请求背后的故事_架构_Reddit工程博客_InfoQ精选文章