写点什么

LinkedIn 图数据库 LIquid:为 9.3 亿会员提供实时数据访问

作者:Eran Stiller

  • 2023-07-07
    北京
  • 本文字数:1014 字

    阅读完需:约 3 分钟

LinkedIn图数据库LIquid:为9.3亿会员提供实时数据访问

最近,LinkedIn 分享了其图数据库LIquid是如何自动索引和实时访问会员、学校、技能、公司、职位、工作、事件等之间的关系数据的。这个知识图谱被称为 LinkedIn 的“Economic Graph”,有 2700 亿条边,并且还在不断增长,目前每秒处理 200 万次查询。


LinkedIn 将其“你可能认识的人(People You May Know,PYMK)”推荐系统从传统的 GAIA 系统迁移到了 LIquid。这一变化显著改善了每秒查询数(QPS)、延迟和 CPU 利用率。QPS 从 120 增加到 18000,延迟从超过 15 秒下降到平均 50 毫秒以下,CPU 利用率下降了 3 倍以上。LIquid 还引入了新的数据库索引技术,支持实时数据查询,实现了即时推荐。



图片来源:https://engineering.linkedin.com/blog/2023/how-liquid-connects-everything-so-our-members-can-do-anything


上图是系统的架构图,使用了 LIquid,可以以较小的延迟和可接受的硬件成本来执行图查询。通过 LIquid 对Economic Graph的查询生成数百个候选对象,并应用第二个排名函数。这个排名函数使用Venice的机器学习功能和Apache Pinot的分析见解来评分并选择最佳候选对象。过滤步骤为呈现和最终评分准备好了这个排名列表。


LIquid 的设计使其能够伸缩到当前十倍的规模,可以支持 LinkedIn 9.3 亿多会员的有机增长和新的语义领域。它提供 99.99%的可用性,并可以自动根据图的大小和活动量的增加进行自动伸缩。


图数据库使用基于Datalog的可组合声明式查询语言,帮助开发人员高效地访问和使用数据。可组合语言能够让开发人员在现有的特性(叫作模块)上进行构建,声明式语言能够让开发人员专注于表达他们想要开发的东西,而 LIquid 自动化了高效的访问过程。开发人员因此可以快速变更数据集,大大减少了调整和更新数据库所需的时间。


LinkedIn 工程总监Bogdan Artintescu描述了 LIquid 的发展路线图:


要让会员能够做更多的事情,我们需要在回答会员的问题方面提供更加完善的能力。我们可以沿着两个方向做出改进。首先,复杂的查询和添加到 Economic Graph 的数据源的多样性将会驱动新特性的开发和呈现。其次,丰富数据将提高推理能力。这可以通过创建派生数据(通过确定性算法或概率机器学习方法)或通过知识图谱(KG)模式中更丰富的语义改进推理来实现。我们计划专注于高性能图形计算和分析,并建立一个 KG 生态系统,让我们的开发人员能够进一步增强会员体验。


LIquid 的成功激励了 LinkedIn 的其他团队和微软的姐妹团队将它作为图数据索引。


原文链接

https://www.infoq.com/news/2023/06/linkedin-liquid-graph-database/

2023-07-07 14:574570

评论

发布
暂无评论
发现更多内容

python中封装和继承

乔乔

11月月更

聊聊香港优才-续篇(58/100)

hackstoic

香港优才

微服务连接:Subset子集划分算法

董哥的黑板报

微服务 云原生 连接 RPC 集群

网页基本代码

我叫于豆豆吖.

11月月更

网站与应用

我叫于豆豆吖.

11月月更

代码的衡量标准

Lemoon Can

写好代码 好代码的衡量标准

两阶段提交与三阶段提交

急需上岸的小谢

11月月更

LeetCode题解:783. 二叉搜索树节点最小距离,栈,JavaScript,详细注释

Lee Chen

JavaScript 算法 LeetCode

OSPF路由协议三

初学者

网络 11月月更

OSPF高级配置——虚链路介绍与配置

我叫于豆豆吖.

11月月更

【愚公系列】2022年11月 微信小程序-sitemap站内搜索

愚公搬代码

11月月更

架构实战营模块 5 作业

陌生流云

架构实战营

Scrum Patterns:产品的自豪感(Product Pride)

Bruce Talk

Scrum 敏捷 Agile Scrum Patterns

2022-11-19:第二高的薪水。表结构和数据的sql语句如下,输出200,因为200是第二大的。请问sql语句如何写? DROP TABLE IF EXISTS `employee`; CREAT

福大大架构师每日一题

MySQL 数据库 福大大

[力扣] 剑指 Offer 第四天 - 在排序数组中查找数字

陈明勇

Go 数据结构与算法 力扣 11月月更

WX微信小程序对于响应的数据绑定和模块化生命周期的实战心得

恒山其若陋兮

前端开发 11月月更

精选2022年大厂高频Java面试真题集锦(含答案),面试一路开挂

程序知音

java面试 大厂面试 java架构 后端技术 Java面试八股文

云原生系列 二【轻松入门容器基础操作】

叶秋学长

云原生 华为云 沙箱实验 11月月更

EasyExcel导出数据超过Excel单表上限解决方案

@下一站

大数据 技术 Excel Java core 11月月更

uni-app实战之单击菜单发布->H5的Promise 化在工程项目的实战演练项目心得

恒山其若陋兮

前端 11月月更

Ubuntu16(ROS_Kinetic)海康威视网络摄像机(单目)内参标定

Studying_swz

ubuntu 11月月更

架构误区系列5:滥用分布式锁

agnostic

分布式锁

TCC

急需上岸的小谢

11月月更

纯原生渲染模式下的uni-App框架通信实战

恒山其若陋兮

前端 11月月更

有限状态机

芯动大师

Verilog 11月月更 Melay FSM

一篇文章彻底理解 HDFS 的安全模式

明哥的IT随笔

hadoop hdfs

cap理论和base理论

急需上岸的小谢

11月月更

数据预处理和特征工程-特征选择-相关性过滤-互信息法 & F检验

烧灯续昼2002

人工智能 机器学习 算法 特征工程 11月月更

GoFrame V2真香,我是Get到了高内聚低耦合的点,你呢?

王中阳Go

Go golang 高效工作 学习方法 11月月更

算法题学习---链表的奇偶重排

桑榆

算法题 11月月更

LinkedIn图数据库LIquid:为9.3亿会员提供实时数据访问_数据库_InfoQ精选文章