东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

腾讯李晓森:智能图平台将成为各领域“智能”的基础能力

  • 2020-12-11
  • 本文字数:4003 字

    阅读完需:约 13 分钟

腾讯李晓森:智能图平台将成为各领域“智能”的基础能力

互联网每天都会产生海量的数据,而数据和数据之间又存在着错综复杂的关系,这种关系的复杂给企业管理增加了难度。利用图技术来解决数据之间复杂性的方式已经无处不在。腾讯在 QQ、微信、支付、游戏等场景积累了丰富多样的图数据,这些图数据蕴藏了巨大的价值。但是,腾讯又是如何将图技术应用到业务实践中?智能图平台技术本身又有哪些优势?为了进一步了解智能图平台在腾讯业务中的作用和价值,在 2021 年 1 月 8-9 日的QCon全球软件开发大会(北京站)前夕,InfoQ 有幸采访了腾讯图计算/图数据库开源协同 Owner & PMC、数据平台部智能图平台负责人李晓森,听他来分享智能图平台在腾讯业务中的创新与实践。

智能图平台在腾讯业务中的创新与实践


近年来,针对图数据的深度学习和图数据库技术逐渐在工业界得到重视。而腾讯在 QQ、微信、支付、游戏等场景积累了丰富多样的图数据,这些图数据蕴藏了巨大的价值。为了提升用户体验、增强风控安全、提升业务效果,此时便需要图神经网络、图数据库等图技术来解决各种复杂场景的图问题。为此,腾讯于 2018 年开始建设自己的智能图数据平台。据腾讯数据平台部智能图平台负责人李晓森介绍,该智能图数据平台涵盖了图数据库、图计算、图可视化、图算法等技术。


谈及建设该平台的初衷,李晓森介绍称,一方面源于内部业务需求的推动,如金融支付、安全风控、广告推荐、知识图谱、调度系统等业务场景,传统的单点分析方法越来越难以应对各个复杂业务场景,促使我们在图技术方向不断探索、实践和创新;另一方面,腾讯也意识到,在不久的将来,图技术对内部业务、外部各行业的价值越来越大,而智能图平台更是支撑图在许多场景落地的平台级能力。


然而,建设这样一个智能图平台并不是件容易事。腾讯有着丰富的业务场景,也积累了海量的图数据,而构建支持百亿级顶点、万亿级边的智能图平台,这个目标本身就是有挑战的。从海量图数据的存储、到毫秒级实时查询、再到超大规模图计算和秒级可视化分析,各个组件都充满了技术挑战。


为了应对这些挑战,在两年多的研发时间里,腾讯数据平台部在平台本身技术和应用体验上都做了很多调整。在图计算方面,研发团队从开源的 Spark Graphx 调整到了自研的 Angel-Graph;在图数据库方向,同样经历了从开源到自研 EasyGraph 的过程。从平台的易用性上,腾讯站在产品的角度设计上层的交互,降低用户的使用成本。


此外,腾讯在图技术领域也在不断深耕创新,如团队在 VLDB、SIGMOD、ICDE 等顶会上发表了 10 多篇论文,同时也积累了许多在图领域的专利。目前智能图平台已支持千亿级边的图计算和万亿级边的存储查询服务,满足内部许多业务的实际需求。目前,研发团队已经把图数据库、图计算、图可视化等能力进行融合,形成了现在的智能图平台。后续智能平台不仅服务于腾讯内部业务,也将在腾讯云上提供图数据库 EasyGraph 在内的整体解决方案,为更多业务赋能。

“以图治图”是否奏效?


腾讯的业务涵盖了许多社交类的产品,这些产品和业务场景都与图有关。那么,智能图数据平台是否能达到“以图治图”的效果?又能否真正地满足实际业务需求?针对这一问题,李晓森表示:


在谈哪些场景适合“以图治图”之前,先解释下什么是“以图治图”,其实它的根本思想是用图技术或图的视角来解决图的问题。如最早运用这种思想的欧拉在解决“柯尼斯堡七桥问题”时,将不同区域建模成点、把桥建模成边,用图找到了答案,而且发展出了图论。“以图治图”需要站在理论技术的角度,也需要从业务应用的角度来定义和思考问题,可以把它看作一种图技术和图应用的综合理念,这种理念也是团队一直倡导的。


所以,首先在设计图计算、图数据库、图可视化等框架时,需要以图治图:


  • 对图计算而言,谷歌提出的 Pregel 图计算框架采用了”像顶点一样思考“(Think Like A Vertex)的思想,可看作“以图治图”(Think Like A Graph)的子集;在图计算的过程中,顶点接收邻居的消息,然后通过更新函数更新顶点自身属性,并产生新的消息发送给邻居;整个计算过程需要反复迭代来完成。


  • 对图数据库而言,在解决图数据的存储组织时,首先考虑的是如何存储点的一跳邻居,即”1-hop structure“(甚至是 subgraph)。只有真正解决了这个问题,才能高效地查询多阶关系。


  • 至于图的可视化技术,更是天然地考虑点和边构成的网络结构,对图进行渲染和展示。


除了上述从图技术的角度,也需要从业务问题的角度看“以图治图”。图本身是人和人、人和物、物和物形成的各种复杂网络,需要对业务问题进行图的抽象。如用户和用户构成的社交网络、支付网络;用户和物品构成的电商、视频、音乐等网络,以及设备和账号等构成的拓扑网络;从这些角度看,腾讯内部的微信、QQ、支付、广告、安全、视频、游戏等业务场景都有明显的图结构,甚至在我们公司级的太极机器学习平台底层的调度系统中,任务之间的依赖也可以抽象成图;如此诸多的业务场景都需要“以图治图”来提升业务效果。而在满足业务需求方面,李晓森表示,研发团队在图数据库和图挖掘方面也都做了比较多的尝试。


首先,团队将图数据库应用到太极机器学习平台的统一调度系统中,调度系统相当于平台管家,负责数据的入库、计算、出库、数据挖掘、模型分析等;每天支持着 750w+的任务调度、300W+的 SQL 查询,搬迁数据 300P+。在调度系统大量的任务并非独立运行,任务之间往往存在依赖关系,只有前置任务执行结束,当前任务才可以运行。如天级任务 C 依赖小时级任务 A 和 B,只有当 A 和 B 24 个小时的实例都执行完成,才会触发 C 的执行。在采用图数据库之前,由于缺少对任务依赖的图抽象,采用 MySQL 存储任务关系,随着历史数据的积累,任务依赖判断要用到表的连接,只能通过 2min 的轮询方式来解决,导致整点时刻任务集中,波峰效应比较明显。后面通过将任务依赖关系建模成图并存储到图数据库中,利用事件触发机制和图数据库多阶查询的高性能,将任务调度延时由 2min 下降到 30ms 以下,性能提升 4000+倍。而图算法如图表示学习算法和图神经网络也在多个业务中落地,比如安全风控场景的安全预警的覆盖率提升 100%,异常检测的覆盖率提升 10%;而在风控分析方面,通过图可视化分析技术,将原来耗时 17min 的业务判断问题降低至 1s,大幅度提升业务研判效率。


智能图平台的未来展望


图可以表达复杂的关系数据,在社交、社区、金融、安全等方面有优势。然而,尽管图技术能够解决这样那样的问题,但图的技术还没有呈现出明显的、爆发性的增长。针对其中原因,李晓森认为:


图技术虽然没有爆发性的增长,但我们已看到星星之火。前期大数据时代积累了多样的数据,数据间的联系也更加复杂,对数据的多阶关联分析逐渐成为趋势。Gartner 在 2019 年将图技术作为十大数据和分析的趋势之一。


当前推动图技术发展和限制图技术的因素都有,制约因素简单说两个方面。在图计算方向,图的深度学习如图神经网络变得火热,但是对工业界超大规模的图网络却难以形成好的应用,一方面受限于算力,另一方面也受限于深度学习的训练难度;比如腾讯内部十亿级顶点、千亿级的边图,通常顶点维度难以超过万维,但 GNN 训练可支持的数据维度还是比较低的,主要原因是资源开销极大;目前学术界和工业界都已意识到这个问题,已有在研究对图训练时如何兼顾 performance、scalability 和训练精度。


另一个限制发展的因素是图数据库还没有标准查询语言,像关系型数据库的 SQL 已经成熟多年,关系型数据库大家都比较熟悉。这块图的标准查询语言还比较欠缺,不过近年已在制定 GQL;而国家也在做图数据库系统技术的标准,我们团队和腾讯云也参与到标准的制定中。


总体而言,限制因素虽然存在,但图技术和图应用的前景是很明朗的,所以大家都在努力打破这些因素的限制,希望图技术破解关联数据的孤岛问题,挖掘图数据的价值,用图来加速世界的智能化。


未来,智能图平台的研发重点仍然是图的平台级能力,特别是其中图数据库、图计算、图可视化等基本能力。当前的研发重点一方面是完善图数据库的能力,将图计算框架与图数据库的深度融合,另一个研发重点是平台的建设和产品的易用性,目前相比许多开源图项目,内部用户反馈智能图平台十分易用,也大幅度提升了业务效率,但需要做的工作还有很多;需要持续关注产品的设计,降低用户使用成本。


李晓森认为,智能图平台未来将作为各领域“智能”的基础能力而发挥更大的价值。人们常讲 AI 的三个核心能力:Cognition(认知)、Decision(决策)、Generation(生成)。实现三个核心能力不仅需要语音识别、计算机视觉、自然语言处理这样的基础研究,也需要图数据库和图计算形成的图平台能力解决知识的查询、计算、推理、解释等问题,图给 AI 带来更进一步的智能,所以未来基本的 AI 能力应该是结合了“图”形成智能 AI。比如在数据平台领域,以前提及比较多的是数据中台,现在或未来智能数据中台受到更多关注,其实也是要把机器学习+AI+图的能力结合起来形成平台的大脑,使得平台的调度、计算、决策等场景更加智能化。以后是万物互连的世界,图数据会无处不在,图技术及其应用也将无处不在,可以预期未来更多的领域会用逐渐到图技术或图平台。


关于更多图技术,李老师将会在 2021 年 1 月 8-9 日的QCon全球软件开发大会(北京站)分享《以图治图:智能图平台在腾讯业务中的创新与实践》,详细介绍腾讯数据平台部团队如何应对图计算和图数据库的挑战,满足调度系统、微信支付、风控安全等业务场景对智能图平台的诉求。


除此之外,还有微服务、大前端、高可用、云原生等热门技术领域的大厂创新技术实践分享,助你正确技术选型。目前大会门票 9 折抢购中,限时立减 680 元,优惠截至 12 月 25 日,团购优惠更多哦!抓紧锁定优惠吧,查看大会最新日程

大会客户经理:17310043226(同微信)


采访嘉宾


李晓森(hansenli),硕士毕业于北京大学,腾讯高级研究员,现任腾讯图计算/图数据库开源协同 Owner & PMC、数据平台部智能图平台负责人。专注于图在支付、安全风控、推荐、知识图谱等业务场景中的落地,和团队一起在 ICDE 等顶级会议上发表图计算工业实践论文。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2020-12-11 08:001456

评论

发布
暂无评论
发现更多内容

刘伟光:超大型金融机构国产数据库全面迁移成功实践

OceanBase 数据库

建木持续集成平台v2.5.3发布

Jianmu

DevOps 持续集成 CI/CD 持续交付 gitops

网易伏羲实验室入选信通院首批大模型优秀应用案例

网易伏羲

人工智能 网易伏羲

武汉java培训技术学习对学历的要求

小谷哥

【计算讲谈社】第九讲|“碳中和”时代下:计算的机会在哪里?

大咖说

计算 碳中和

深圳web前端培训费用多少?

小谷哥

22年Java面试真题整理,一共343道,每一题都很经典,堪称秋招必备

Java编程日记

Java 编程 程序员 面试 架构师

墙裂安利!用腾讯云AI语音合成打造自己的第一本有声书

牵着蜗牛去散步

腾讯云 腾讯 语音合成 技术实践 有声读物

提升LED显示屏散热效果的7种方式

Dylan

LED显示屏 led显示屏厂家

膜拜阿里!首次发布「10亿级并发系统设计文档」(内部绝密)

退休的汤姆

阿里 面经 Java工程师 秋招 并发系统设计

开源一夏 | 原生js实现吃掉病毒,还森林一片祥和!

法医

开源

元老级的存储类型:块存储,性能很强!

wljslmz

8月月更 块存储

Vuex与前端表格施展“组合拳”,实现大屏展示应用的交互增强

葡萄城技术团队

Vue 前端 表格 vuex

元宇宙里的下个社交时代

智捷云

元宇宙

私有化部署的低代码平台 更安全的信息化解决方案

力软低代码开发平台

大数据毕业设计

Geek_Q

X-mask神秘面具NFT挖矿dapp系统开发逻辑详情

开发微hkkf5566

前端培训班排名口碑怎么样

小谷哥

兆骑科创创业赛事活动服务平台,投融资服务对接,政策申报

兆骑科创凤阁

学习总结-网关 架构演进

C++后台开发

网络编程 API 网关 C/C++后台开发 C/C++开发

解码微盟集团2022中报:SaaS收入5.81亿逆势增长,高质量增长路径更清晰

ToB行业头条

RabbitMQ面试29连问,看完还过不了面试,我给你一Jio

小柴说Java

Java 编程 程序员 面试 架构师

RocketMQ面试33连问,答完面试官主动要给我提薪资待遇...

Java编程日记

Java 编程 程序员 面试 架构师

哪家web前端培训班比较好

小谷哥

华为被迫开源!从认知到落地SpringBoot企业级实战手册(完整版)

Java编程日记

Java 编程 程序员 面试 架构师

Go-Excelize API源码阅读(十四)——GetSheetFormatPr

Regan Yue

开源 源码刨析 Go 语言 8月日更 8月月更

2022 OceanBase 年度发布会:发布四大策略,迈入4.0时代

OceanBase 数据库

科普达人丨一图看懂阿里云ECS

阿里云弹性计算

云计算 IaaS 弹性计算 ECS

开源一夏 | 如何使用谷歌浏览器 Chrome 更好地调试

海拥(haiyong.site)

JavaScript chrome 开源 Google 8月月更

OceanBase发布“珊瑚计划”,让合作伙伴成为OceanBase成功的关键

OceanBase 数据库

大数据编程培训课程怎么选择

小谷哥

腾讯李晓森:智能图平台将成为各领域“智能”的基础能力_AI&大模型_李冬梅_InfoQ精选文章