10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

LinkedIn 图数据库 LIquid:为 9.3 亿会员提供实时数据访问

作者:Eran Stiller

  • 2023-07-07
    北京
  • 本文字数:1014 字

    阅读完需:约 3 分钟

LinkedIn图数据库LIquid:为9.3亿会员提供实时数据访问

最近,LinkedIn 分享了其图数据库LIquid是如何自动索引和实时访问会员、学校、技能、公司、职位、工作、事件等之间的关系数据的。这个知识图谱被称为 LinkedIn 的“Economic Graph”,有 2700 亿条边,并且还在不断增长,目前每秒处理 200 万次查询。


LinkedIn 将其“你可能认识的人(People You May Know,PYMK)”推荐系统从传统的 GAIA 系统迁移到了 LIquid。这一变化显著改善了每秒查询数(QPS)、延迟和 CPU 利用率。QPS 从 120 增加到 18000,延迟从超过 15 秒下降到平均 50 毫秒以下,CPU 利用率下降了 3 倍以上。LIquid 还引入了新的数据库索引技术,支持实时数据查询,实现了即时推荐。



图片来源:https://engineering.linkedin.com/blog/2023/how-liquid-connects-everything-so-our-members-can-do-anything


上图是系统的架构图,使用了 LIquid,可以以较小的延迟和可接受的硬件成本来执行图查询。通过 LIquid 对Economic Graph的查询生成数百个候选对象,并应用第二个排名函数。这个排名函数使用Venice的机器学习功能和Apache Pinot的分析见解来评分并选择最佳候选对象。过滤步骤为呈现和最终评分准备好了这个排名列表。


LIquid 的设计使其能够伸缩到当前十倍的规模,可以支持 LinkedIn 9.3 亿多会员的有机增长和新的语义领域。它提供 99.99%的可用性,并可以自动根据图的大小和活动量的增加进行自动伸缩。


图数据库使用基于Datalog的可组合声明式查询语言,帮助开发人员高效地访问和使用数据。可组合语言能够让开发人员在现有的特性(叫作模块)上进行构建,声明式语言能够让开发人员专注于表达他们想要开发的东西,而 LIquid 自动化了高效的访问过程。开发人员因此可以快速变更数据集,大大减少了调整和更新数据库所需的时间。


LinkedIn 工程总监Bogdan Artintescu描述了 LIquid 的发展路线图:


要让会员能够做更多的事情,我们需要在回答会员的问题方面提供更加完善的能力。我们可以沿着两个方向做出改进。首先,复杂的查询和添加到 Economic Graph 的数据源的多样性将会驱动新特性的开发和呈现。其次,丰富数据将提高推理能力。这可以通过创建派生数据(通过确定性算法或概率机器学习方法)或通过知识图谱(KG)模式中更丰富的语义改进推理来实现。我们计划专注于高性能图形计算和分析,并建立一个 KG 生态系统,让我们的开发人员能够进一步增强会员体验。


LIquid 的成功激励了 LinkedIn 的其他团队和微软的姐妹团队将它作为图数据索引。


原文链接

https://www.infoq.com/news/2023/06/linkedin-liquid-graph-database/

2023-07-07 14:574423

评论

发布
暂无评论
发现更多内容

别让代码毁了低空经济!80% 风险藏在第三方组件里,SCA是唯一 “透视镜”

安势信息

SCA 开源组件 低空经济 无人机安全 许可证合规

“医” 起穿越三国,开启《脑洞三国》新体验

博文视点Broadview

如何5分钟内,发布一篇提示词分享的公众号文章

龙正哲

黑龙江等保测评方法详解

等保测评

为什么有些企业不用腾讯会议,会单独采购私有化部署的会议系统?

BeeWorks

即时通讯 IM 私有化部署

PAC2025:鲲鹏平台“挑大梁”,国产算力点燃青春力量

科技热闻

选择局域网视频软件,让你的开会数据仅在企业内网流转!

BeeWorks

即时通讯 IM 私有化部署

黑龙江等保测评实施流程四阶段

等保测评

CST基础教程:如何在3D 中添加多针脚集总元件

思茂信息

cst操作 CST软件 CST Studio Suite

微软紧急发布IE浏览器带外安全更新修复关键漏洞

qife122

安全更新 带外发布

隐私作为差异化优势:苹果的零知识实现与匿名中继技术

qife122

隐私保护 Oauth

基于 EventBridge 构筑 AI 领域高效数据集成方案

阿里巴巴云原生

阿里云 云原生 EventBridge

详细教程:DNS服务器未响应是怎么回事,有哪些解决方法?

国科云

大数据-74 Kafka 核心机制揭秘:副本同步、控制器选举与可靠性保障

武子康

Java 大数据 kafka 分布式 消息队列

从技术协同到生态共建:BOE(京东方)“双京赋能计划”三周年树立行业创新合作新标杆

科技热闻

Apache IoTDB PMC 主席黄向东:积跬步,至千里,IoTDB 的 2023-2025

Apache IoTDB

全面掌握 Consul:服务注册发现、健康检查、跨数据中心一网打尽

左诗右码

工业数据管理的八大痛点,为何总是治标不治本?一次架构重构告诉你答案

TDengine

tdengine 工业数据 idmp

WebGL开发框架概述

北京木奇移动技术有限公司

软件外包公司 数字孪生开发 webgl开发

系统性能提升70%,华润万家核心数据库升级

老纪的技术唠嗑局

数据库设计 性能调优 oceanbase

从百万到十万:低代码在企业应用系统开发中的成本优化路径

JeeLowCode低代码平台

低代码 低代码, 低代码引擎 低代码工具 低代码技术

如何选择适合的LED广告屏?

Dylan

广告 LED LED display LED显示屏 LED屏幕

在 Amazon Bedrock 中结合 RAG 与 MCP 高效缓解提示词膨胀问题

亚马逊云科技 (Amazon Web Services)

YashanDB如何简化数据合规性管理

数据库砖家

基于YOLOv8的无人机航拍树木目标检测系统|精准识别【含完整训练源码+部署教程】

申公豹

人工智能

4 款最适合打造灵活工单系统的开源零代码/低代码平台

NocoBase

低代码 零代码 工单 工单管理 开源‘

YashanDB如何实现高并发环境下的数据操作

数据库砖家

YashanDB如何支持大数据处理与实时分析

数据库砖家

付费功能免费用!!!Yops 运维面板 v0.9 正式发布

Yops-运维易

Linux 程序员 服务器 Linux 运维 #docker

非凸底仓增强算法上线中山证券,智启普惠投资新时代

非凸科技

YashanDB容灾备份策略,保障企业关键数据安全无忧

数据库砖家

LinkedIn图数据库LIquid:为9.3亿会员提供实时数据访问_数据库_InfoQ精选文章