AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

LinkedIn 数据基础设施简介

  • 2010-08-19
  • 本文字数:1180 字

    阅读完需:约 4 分钟

来自 LinkedIn 的 Jay Kreps 在近日举办的 Hadoop 峰会上详细介绍了 LinkedIn 对数据的处理方式。Kreps 介绍了 LinkedIn 每天是如何处理 1.2 千亿个关系并通过高容量、低延迟的站点服务来混合大量的数据计算的。

LinkedIn 的很多重要数据都是离线的,移动起来相当慢。因此,他们将每天对 Hadoop 的批处理作为计算的重要组成部分。比如说,他们采用这种方式对其“People You May Know”产品数据进行预计算,这么做每天会在 mapreduce 管道(拥有 82 个 Hadoop job)中产生 1.2 千亿个关系,需要 16TB 的临时数据。这个 job 使用了一个统计模型来预测两个人认识的概率。有趣的是,他们使用布隆过滤器(bloom filters)来加速巨大的连接关系,这提升了10 倍的性能。

LinkedIn 有两个工程师从事这个管道开发,他们每周可以测试 5 个新算法。为了实现这种变化率,他们使用 A/B 测试来比较新旧方法,使用“fly by instruments”方法来优化结果。为了提升性能,他们还需要操纵大范围数据:使用大范围集群处理。为了实现这个目标,他们从客户化的图处理代码迁移到了 Hadoop mapreduce 代码上:这需要一些周全的设计,因为很多图算法无法直接转换为 mapreduce。

LinkedIn 对开源项目投入巨大,希望构建出一流的组件并号召社区参与进来。其中两个开源项目构成了其数据基础设施的中心。 Azkaban 是个面向 Hadoop 的开源工作流系统,提供了类似于 cron 的调度,类似于 make 的依赖分析,还包含了重启。它用于控制 ETL job,该 job 可以将数据库与事件日志推送到边缘服务器存储(Voldemort)中。

Voldemort 是 LinkedIn 的 NoSQL 键 / 值存储引擎。它每天都会向其站点推送出几十亿的边缘概率关系图,用于渲染网页时查询所用。这种数据是只读的:它是通过这些集群 job 计算出来的,但之后会实时通过搜索进行过滤,这么做会限定到用户感兴趣的某些公司,或是排除掉用户已经表明不认识的那些人。这个方法来源于使用数据库解决这个问题时所遇到的障碍,后者需要分片并迁移至完全依靠手工移动数据的系统。Voldemort 完全是分布式且去中心化的,支持分区与容错。

LinkedIn 通过同时获取 Hadoop 与 Voldemort 大范围的结果来更新服务器,预热缓存,然后分别在每个服务器上针对新一天的数据建立原子转换。他们会将前一天的数据保持在服务器上,这样一旦新一天的数据集出现了问题就可以立刻恢复过来。LinkedIn 在其 Hadoop 管道上构建了一个索引结构:这会产生几个 TB 的查找结构,该结构完美地使用了散列(每个键只需要 2.5 个位)。这种处理权衡了集群计算资源以实现更快的服务器响应;LinkedIn 大约需要 90 分钟时间在 45 个结点集群上构建 900GB 的数据。他们使用 Hadoop 来处理大块的批数据,这样其 Hadoop 集群就需要周期性地进行升级,但 Voldemort 则永远不需要。

感兴趣的读者可以查看演讲的幻灯片以进一步了解详情。

查看英文原文: LinkedIn’s Data Infrastructure

2010-08-19 09:553727
用户头像

发布了 88 篇内容, 共 267.0 次阅读, 收获喜欢 8 次。

关注

评论

发布
暂无评论
发现更多内容

一次莽撞的 TiDB 升级故障复盘

TiDB 社区干货传送门

版本升级

腾讯会议天籁实验室两项研究成果获深圳人工智能奖

极客天地

测试开发名企定向培训训练营即将开营,限时优惠进行中,手把手带你快速提升核心竞争力

测吧(北京)科技有限公司

测试

知识图谱算法有哪些

悦数图数据库

如何制作个性又美观的二维码?自定义Logo、样式,还能一键复用

草料二维码

二维码 二维码生成 草料二维码 二维码美化

AI手机,走入小径分岔的花园

脑极体

AI

国产 Web 组态软件 TopStack V5.0 发布

图扑物联

工业物联网 web组态 轻量化 组态编辑器 工业组态软件

Operator 安装 TiDB 监控告警

TiDB 社区干货传送门

管理与运维 安装 & 部署 数据库架构选型 7.x 实践

深入大模型的世界

我是谁

世界知识产权日:XSKY 以更多架构核心专利,推进 SDS 产业创新创造

XSKY星辰天合

星辰天合 世界知识产权日

预见预判|AIRIOT智慧交通管理解决方案

AIRIOT

智慧城市交通 智能交通 智慧交通系统

开放签:引领中小微企业步入电子签章普惠时代

开放签开源电子签章

电子合同 电子签章 开放签

金融案例:统一查询方案助力数据治理与分析应用更高效、更安全

袋鼠云数栈

大数据 数据分析 数字化转型 金融 金融解决方案

《2023网信自主创新调研报告》正式发布,云起无垠连年参编

云起无垠

突破数据存储瓶颈!转转业财系统亿级数据存储优化实践

TiDB 社区干货传送门

ISO 专家解读 | 什么是 GQL 国际标准图查询语言

悦数图数据库

图数据库

量化合约/合约量化系统开发运营版/成熟技术/源码案例

系统开发咨询1357O98O718

游戏发行困境及OgGame云游戏解决方案简述

Ogcloud

游戏 云游戏 云游戏发行 云游戏平台 游戏云化

怎么用云手机来做TikTok矩阵养号?

Ogcloud

云手机 海外云手机 tiktok云手机 云手机海外版 tiktok运营

马斯克的 xAI 融资 60 亿美元;英伟达收购两家 AI 创企丨 RTE 开发者日报 Vol.193

声网

什么是IPD项目管理模式?聊聊IPD下的产品研发流程

IPD产品研发管理

产品 项目管理 IPD 产品研发

测试开发名企定向训练营即将启动,限时优惠火热进行中!

霍格沃兹测试开发学社

实战干货|Spark 在袋鼠云数栈的深度探索与实践

袋鼠云数栈

spark Spark 源码 spark SQL 离线开发 大数据计算引擎

LinkedIn数据基础设施简介_架构_Ron Bodkin_InfoQ精选文章