写点什么

LinkedIn 数据基础设施简介

  • 2010-08-19
  • 本文字数:1180 字

    阅读完需:约 4 分钟

来自 LinkedIn 的 Jay Kreps 在近日举办的 Hadoop 峰会上详细介绍了 LinkedIn 对数据的处理方式。Kreps 介绍了 LinkedIn 每天是如何处理 1.2 千亿个关系并通过高容量、低延迟的站点服务来混合大量的数据计算的。

LinkedIn 的很多重要数据都是离线的,移动起来相当慢。因此,他们将每天对 Hadoop 的批处理作为计算的重要组成部分。比如说,他们采用这种方式对其“People You May Know”产品数据进行预计算,这么做每天会在 mapreduce 管道(拥有 82 个 Hadoop job)中产生 1.2 千亿个关系,需要 16TB 的临时数据。这个 job 使用了一个统计模型来预测两个人认识的概率。有趣的是,他们使用布隆过滤器(bloom filters)来加速巨大的连接关系,这提升了10 倍的性能。

LinkedIn 有两个工程师从事这个管道开发,他们每周可以测试 5 个新算法。为了实现这种变化率,他们使用 A/B 测试来比较新旧方法,使用“fly by instruments”方法来优化结果。为了提升性能,他们还需要操纵大范围数据:使用大范围集群处理。为了实现这个目标,他们从客户化的图处理代码迁移到了 Hadoop mapreduce 代码上:这需要一些周全的设计,因为很多图算法无法直接转换为 mapreduce。

LinkedIn 对开源项目投入巨大,希望构建出一流的组件并号召社区参与进来。其中两个开源项目构成了其数据基础设施的中心。 Azkaban 是个面向 Hadoop 的开源工作流系统,提供了类似于 cron 的调度,类似于 make 的依赖分析,还包含了重启。它用于控制 ETL job,该 job 可以将数据库与事件日志推送到边缘服务器存储(Voldemort)中。

Voldemort 是 LinkedIn 的 NoSQL 键 / 值存储引擎。它每天都会向其站点推送出几十亿的边缘概率关系图,用于渲染网页时查询所用。这种数据是只读的:它是通过这些集群 job 计算出来的,但之后会实时通过搜索进行过滤,这么做会限定到用户感兴趣的某些公司,或是排除掉用户已经表明不认识的那些人。这个方法来源于使用数据库解决这个问题时所遇到的障碍,后者需要分片并迁移至完全依靠手工移动数据的系统。Voldemort 完全是分布式且去中心化的,支持分区与容错。

LinkedIn 通过同时获取 Hadoop 与 Voldemort 大范围的结果来更新服务器,预热缓存,然后分别在每个服务器上针对新一天的数据建立原子转换。他们会将前一天的数据保持在服务器上,这样一旦新一天的数据集出现了问题就可以立刻恢复过来。LinkedIn 在其 Hadoop 管道上构建了一个索引结构:这会产生几个 TB 的查找结构,该结构完美地使用了散列(每个键只需要 2.5 个位)。这种处理权衡了集群计算资源以实现更快的服务器响应;LinkedIn 大约需要 90 分钟时间在 45 个结点集群上构建 900GB 的数据。他们使用 Hadoop 来处理大块的批数据,这样其 Hadoop 集群就需要周期性地进行升级,但 Voldemort 则永远不需要。

感兴趣的读者可以查看演讲的幻灯片以进一步了解详情。

查看英文原文: LinkedIn’s Data Infrastructure

2010-08-19 09:553793
用户头像

发布了 88 篇内容, 共 271.0 次阅读, 收获喜欢 9 次。

关注

评论

发布
暂无评论
发现更多内容

深入理解云原生基础:Docker和Kubernetes的核心概念与应用

Miracle.

#云原生 #技术人的2023总结

松柏之志,下聚百川-松下中国阿里云大数据实践

阿里云大数据AI技术

聊一聊 C# 线程切换后上下文都去了哪里

不在线第一只蜗牛

C# 前端 线程 window

我的2023总结,AI快速发展的一年

零零

AI #技术人的2023总结

KubeWharf:推动云原生技术发展的未来之路

Miracle.

#云原生 #技术人的2023总结 KubeWharf

测试开发 | 人工智能目标检测

测吧(北京)科技有限公司

测试

测试开发 | 人工智能的决策智慧:马尔可夫决策过程(MDP)

测吧(北京)科技有限公司

测试

HBase深度历险 | 京东物流技术团队

京东科技开发者

大模型应用开发之道圆满举办

开放原子开源基金会

开源

首个离散元仿真软件EDEM好学吗?有什么学习技巧?

智造软件

仿真软件 仿真工具 离散元 离散元仿真 仿真分析

测试开发 | 探索人工智能图像生成的奇妙世界

测吧(北京)科技有限公司

测试

测试开发 | 深度解析人工智能特征提取

测吧(北京)科技有限公司

测试

测试开发 | 探究人工智能的基石:强化学习的奇妙世界

测吧(北京)科技有限公司

测试

QA团队基于DataLeap开放平台能力的数据测试实践

字节跳动数据平台

大数据 测试 QA 数据研发 数据管控

ABAQUS如何进行疲劳分析?

思茂信息

仿真软件 abaqus 有限元分析 有限元技术 结构仿真

【第七在线】商品计划对于服装企业的重要性

第七在线

云图说丨初识华为云边缘安全——为加速域名保驾护航

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 华为云云图说

FPGA与DSP在通信算法实现中的应用与区别

计算机 DSP FPGA

“GPT驱动的新程序员时代 ,我们该如何编程”分论坛圆满举办

开放原子开源基金会

开源

教你几个部署多个nginx-ingress的注意事项

华为云开发者联盟

容器 开发 华为云 华为云开发者联盟

获奖名单公示|荣耀时刻,「第5届天池全球数据库大赛」决赛圆满收官

阿里云瑶池数据库

数据库 阿里云 阿里云瑶池数据库

LinkedIn数据基础设施简介_架构_Ron Bodkin_InfoQ精选文章