NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

知识图谱 + 数据中台,会是未来中台战略的答案吗?

  • 2019-11-22
  • 本文字数:4939 字

    阅读完需:约 16 分钟

知识图谱+数据中台,会是未来中台战略的答案吗?

3 月 27 日,明略科技宣布完成 20 亿人民币的 D 轮融资,宣布战略升级。在时隔近 8 个月后,明略科技将数据中台与知识图谱相结合的一系列动作,可能会成为其在“拥挤”的人工智能赛道中胜出的关键所在。


熙熙攘攘数据中台这一年过去了,关于中台的争论还没有停止,有人认为这是软件开发商故意炒作的话题,也有人认为这是企业数字化转型的必经之路。现阶段市面上那些普遍的“中台架构”,已经被市场所实践验证过的架构,是最正确、最具效率的中台体系吗?


随着人工智能领域的不断深化,各种新技术层出不穷,中台架构和其它平台一样,也面临着“与时俱进”和升级迭代的局面。目前的人工智能应用主要集中在对图片、视频以及语音能力的探究,在知识推理、因果分析等领域还缺乏相应的研究。知识图谱,作为人工智能领域,打通感知到认知这一过程中现阶段最有效的技术和工具,其承担着非常重要的作用。


作为国内知识图谱领域的领军者之一,11 月 15 日,明略科技集团在上海举办以“FASTER 聚变·增长新动力”为主题的 2019 数据智能峰会,宣布“打造智能时代的企业中台”新战略,同时推出“新一代数据中台”。


在当前国内企业市场中台“泛滥”的情况下, 明略科技高调踏入中台领域的原因是什么?明略科技将自身最拿手的知识图谱融入到数据中台的体系中,两者之间如何发生反应?带着这些问题,InfoQ 采访了明略科技集团技术中心负责人杨威以及知识图谱技术负责人孟嘉。


显然,明略科技不想以中台投机者的身份参与到市场中,而是要做一个行业的颠覆者与创新者。在接受 InfoQ 的专访过程中,他们反复向 InfoQ 强调明略科技在数据中台以及知识图谱领域内所做的一系列创新。

数据中台的核心 -DataAPI

数据中台火的十分突然,似乎年前还在炒概念,年后突然就冒出来各种中台的实践。当然其中有跟风的因素,但根本原因在于,“数据”的价值正在越来越受到企业的重视,数据正在成为企业最核心以及最重要的生产资料,成为决定企业业务转型的关键因素。企业需要一个源源不断的输出数据服务,数据洞察的能力源泉,数据中台的出现就成了顺理成章的事情。


明略科技集团技术中心负责人杨威认为,中台的作用在于打通固有多业务系统之间的数据壁垒,融合各个不同业务系统间所产生的数据,通过数字化的运营和驱动来支撑前端业务的快速变化,从而产生更大的价值。


这一年来,大家都在热衷于讨论什么是“数据中台”,不只是互联网企业,许多传统企业也存在着将数据整合起来的需求。目前市面上也有很多关于数据中台的“科普类”文章,但是大多都浮于表面,对于数据中台的内在核心 - 数据,却很少提及。


如果将数据中台理解为企业内部的数据大脑,这个数据大脑主要是用技术链接计算平台的数据处理能力,来负责对数据进行收集、分析、下发、整理等一系列的工作。因此,数据中台不但要将很复杂的大数据处理技术(流计算、批量计算、实时采集、离线采集、机器学习)封装起来,形成计算平台;同时进入数据中台的数据都需按照规范的建模方法论将数据形成主题域模型、形成标签模型或者算法模型,这类数据模型就是数据中台的最核心资产。


数据模型是通过数据中台内的数据建模体系模拟计算出来的结果,这类数据建模体系在中台内被称为 DataAPI,是整个数据中台建模体系的绝对核心。作为数据中台的核心,DataAPI 是连接前后台的桥梁,通过 API 的方式提供数据服务。因此,如何让 DataAPI 生产得更快,如何让 DataAPI 更加清晰,如何提升 DataAPI 的数据质量等这些围绕数据中台核心功能的能力,一定是数据中台中最重要的能力。而这,也正是明略科技将知识图谱引入到数据中台体系内的重要原因之一。

如何将领域知识图谱融入在 DataAPI 中

无非两种方式,一种是实现从面向业务过程的数据组织方式到面向业务领域的数据组织方式的转变,另一种则是深入挖掘常规数据中台体系下的隐性数据关系,这两者可以相互存在。


当前市面上的中台基础模型大同小异,这是因为其根本数据组织形式没有发生改变,都是通过将数据组织为传统的表结构这种普通的关系。


这种组织数据方式即面向业务过程的数据组织方式,通俗来说,就是将数据物理集中在一起。从存储的角度来看,数据就是一张张独立的表结构,如常用的会员表、订单表等,表与表之间无法再数据层面整合到一起,需要通过外在的辅助工具才能进行逻辑与数据梳理,因此这种形式又被称为物理集中,而不是逻辑集中。


这种传统的数据仓库,其优势在于统计性报表,同时这也是图数据库的劣势,因为图数据库的运作形式是在模型之间的不间断游走,这会是一个非常长的离线模型,通过索引以及一些技术,把统计的引擎也加载知识图谱中,所以用的是混合存储,也可以将其理解为用空间换时间,但是难点在于数据的一致性,因为之前已经将整体的数据拆散在不同的存储下,对于数据的最终一致性非常难保证。


将知识图谱引入到数据中台后,实现了面向业务领域的数据组织方式。通过明略科技所积累的知识图谱技术,将知识图谱融入在中台数据模型这一层,将所有隐性的最基础的语义,全部以显性的形式放到知识图谱里进行呈现,如何实现对于数据间隐性关系的挖掘?明略科技采用了以下两种方式:



明略科技领域知识图谱落地流程


将领域知识图谱引入到数据中台下的数据模型层,基于图挖、机器学习技术来实现隐性关联关系挖掘,从而实现面向业务领域数据组织方式的转变,并以此来满足图谱节点相似度测算、节点重要性测算、关系图中的频繁模式子图、多节点子图挖掘、社区发现、两两关联、聚类等业务需求。


此外,基于业务规则定义,也可识别潜在的数据关联关系。基于轨迹信息、标签规则、交易规则、一致行动人规则等业务知识的输入,形成实体关系事件的知识图谱数据模型,将数据模型引入到知识图谱计算引擎中,到如同一数据视图,基于 DSL 语法描述规则逻辑,编译生成可以在 Spark 上运行的 Scala 代码。


这赋予了数据中台深入观察数据潜在价值的能力,将所有隐性的最基础的语义,全部以显性的形式放到知识图谱里进行呈现,将整个数据打通,这是明略特色的数据中台和之前的中台最根本的区别,也可以将其视为数据中台从数据整合分析平台向数据自动化智能学习平台迈进的一个重要节点。


目前,知识图谱作为知识的一种形式,已经在语义搜索、智能问答、数据分析、自然语言理解、视觉理解、物联网设备互联等多个方面发挥出越来越大的价值。中台需要知识图谱来为其提供更高效的数据收集、处理、分析及可视化能力,知识图谱需要中台来为其提供完美适配的环境,知识图谱与数据中台的结合,看起来就是互相需要的一个过程。

中台 + 知识图谱 = 明略科技的特色数据中台

像企业转型中台一样,中台与知识图谱的结合也是一个自然的过程。


明略科技集团知识图谱技术负责人孟嘉提到,整个数据中台大体系是由一整套方法论组成的,把知识图谱的理念引入到数据层和应用层,就像企业转型需要用到数据中台一样,这是一个自然而然的过程。


明略科技将知识图谱融入在智能化知识服务这一层有十分重要的意义,一方面,这相当于将知识图谱视为下一代的数据组织形式、新的数据存储形式以新一代数据基础设施,另一方面,对比上一代或者现在主流的数据存储形式,知识图谱确实能够更好的在数据中台内部完成人工智能的工作。

特色一:数据中台的数据服务层

明略科技的数据中台基础模型与市面上的其它中台相比,是将知识图谱的概念加到数据基础模型里。孟嘉提到,知识图谱有一个特点,就是面向业务领域的数据组织形式,可以抽取实体关系、事件、标签、模型、规则等条件,存成以图为基础的数据形式,而不是传统的表结构。这些数据中包括如何保存推理规则和专家经验,使得知识图谱的数据真实性大大提升。

特色二:将知识图谱当作数据的基础组织与存储形式

传统的数据组织形式类似于数据仓库这种,其中没有突出知识图谱的理念。数据中台的作用是将数据整合起来,以 API 接口的形式统一给前台赋能,以适应前端快速的业务变化,其中包括共享机制、协作机制等,都是通过数据层进行传输。知识图谱通过贯穿这一层面,通过自然语言等形式的输入,可迅速调用 PB 及以上量级数据之间的关系,系统自动推理辅助分析并得出结果,可以将这看作是新型的数据存储与组织形式。具备以下几个功能特点:


混合存储技术,包含图数据库、列式存储、全文索引、文件存储等;扩展的数据模型,涵盖时间序列事件、地理位置属性以及图谱变迁历史;知识查询语言,基于知识图谱数据库来打造面向实体 - 关系 - 事件 - 属性等数据类型的声明式查询接口;时空多轨分析,基于时间和地理范围的轨迹碰撞,通过轨迹明细检索,形成包含二维关联信息、时空信息、历史状态信息等多个层次的知识基础;复杂图谱分析,具备在线隐性关系扩展、多维度组合条件搜索碰撞以及最短路径分析等方法。通过将上述的一系列方法论和具体的功能实现,明略科技将自身在领域知识图谱中的技术,融入到数据中台,为企业打造真正具有行业 Know-How 的新一代数据中台。

打造最具行业 Know-How 的数据中台

在明略科技看来,最具行业 Know-How 的数据中台,一定是由“数据和知识双驱动的”数据中台,如果只是单方面的从数据角度去驱动,会逐渐禁锢中台的发展。数据中台,应该是一个键智能推荐、智能营销、领域图谱、AI 决策为一体的平台,而并非企业数据的中转站。


明略科技通过在传统中台优势的基础上对数据做进一步打通,进一步挖掘数据内部的价值,应用知识图谱于中台内部建立起多维度数据模型,确保中台要拥有持续学习的 AI 能力基础。


明略科技特色的数据中台,最主要有三个方面特点:

协助企业维系统一的数据组织架构

明略科技集团技术中心负责人杨威说道,“如果想要了解企业的业务情况,最好的方式就是了解企业用了哪些数据。”以前是从业务去查看数据,在具备知识图谱体系后,可以从数据反推业务,通过知识图谱就能了解到当下行业内的重点以及相关企业的主营业务范畴;


另外,极高的可扩展性也是企业内部架构的必须。现阶段大多都基于关系型数据库来构建数仓或基于大数据来构建数仓,这两者本质的区别在于基于大数据所构建的数仓的承载力更强,能够实现更加复杂的模型计算,维度的计算量也更大。但是也存在局限性,就是基于大数据所构建的传统数仓,并没有突破传统通过关系图来描写数据的方式,牵一发而动全身,往往新增数据还需要同时新增与之相匹配的表、类型和相应的业务系统,步骤非常繁琐。


而知识图谱是基于整个网络图来进行数据描述,在有新的数据种类、节点加入进来后,通过将这些新数据和其它已有数据建立新的关系,保证数据不断层,从而能够为中台体系内的数据基础设施赋予可持续成长的能力。除传统数仓本就能做的工作之外,一些诸如画像、推荐、问答、搜索等新的业务场景下,可以直接在图谱上做,不需要重复构建搜索、画像等业务系统。

提升数据的协作性

中台毕竟是一个巨大的系统和体系,需要不同的人进行相互之间的协作。这个协作,包含有几个含义:提升每一个人对于数据的信任度。通过监控每一个数据的生命全周期,生产 - 处理 - 消费的全过程,以及过程中所相关的人和这个人做的操作,将这些操作和代码统一管理起来,全流程可视化,每一个人都可以详细看到每一个的进程,可以大大提升开发者对于系统和数据的信任度。


分享和复用一直是数据协作的理念,以前大家使用数据的方式都提走一份数据,在自己的电脑上做分析之后并产生报告就结束而。中间的分析过程、计算过程和报告的洞察 insight 并没有积累下来。因此更希望整个的计算过程和所有的计算结果是可以被写回到后面的中台和图谱里面去,所以这些洞察 insight 和过程都会保留下来,可以被其他的人分享、复用,这也是数据协作的理念。

用知识图谱丰富数据中台

最后,明略科技技术中心负责人杨威强调,企业做数据中台,是想要将来自于多条业务线且复杂的数据整合起来并进行高效、有价值的分析。知识图谱之于中台,不只是简单的将数据组织成一张数据网络然后再提供数据服务,而是所做的是融合了从智慧到知识的过程,包括规则、算法、推理等程序性支持,有了这些支撑,才能丰富数据中台相关的数据服务能力。


此外,企业打造了数据中台,也一定要有业务中台,否则数据中台就是个“空架子”,没有可以服务的对象。从数据中台到业务中台,无论是架构、技术接口还是逻辑,都应该是无缝链接,有了知识图谱,才能够实现对上层业务更加强有力的支撑。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-11-22 14:334409
用户头像
佘磊 策划编辑

发布了 50 篇内容, 共 20.3 次阅读, 收获喜欢 76 次。

关注

评论

发布
暂无评论
发现更多内容

总是记不住java的IO流用法?用N个问题教你掌握java IO流

华为云开发者联盟

Java 字符串 IO流 字节输入流 字符流

世界读书日,爱奇艺ers的技术产品书单

爱奇艺技术产品团队

读书

全网最全 ECMAScript 攻略

清秋

JavaScript ecmascript 大前端 ES6 Ecma

阿里“秘密团队”整理出来的一份Java面试复盘手册!全面复盘在望

Java架构之路

Java 程序员 架构 面试 编程语言

LiteOS内核源码分析:动态内存之Bestfit分配算法

华为云开发者联盟

LiteOS Huawei LiteOS 动态内存 Bestfit 分配算法

千人万面奇妙自见:爱奇艺短视频推荐技术中多兴趣召回技术的演变

爱奇艺技术产品团队

推荐 短视频 模型 召回

大学生调研:在选择工作时,最看重什么?

石云升

28天写作 4月日更 1 周年盛典

深入汇编指令理解Java关键字volatile

AI乔治

Java 架构 volatile Java内存模型

推荐5个4K视频下载网站 (百万优质资源)

科技猫

网站 分享 视频 经验 资源分享

真的香!Github一夜爆火被各大厂要求直接下架的面试题库也太全了

Java架构之路

Java 程序员 架构 面试 编程语言

Flink的状态一致性

大数据技术指南

flink 4月日更

欢迎 ProForma 的制造商 ThinkTilt 加入 Atlassian 的大家庭!

Atlassian

敏捷 esm ITSM Atlssian JiraServiceManagement

当区块链遇到工业互联网,浪潮云洲链正在那里

浪潮云

云计算

Git 常用命令速查

箭上有毒

4月日更

噱头or契机:多端协同游戏的草蛇灰线

脑极体

暴涨暴跌的牛市,普通人怎么和平发育?

CECBC

区块链

40 图|硬核解析用 Mac M1 玩转 SpringCloud

悟空聊架构

开源 Mac SpringCloud m1 passjava

开发环境上云,打造五星级开发体验

CODING DevOps

Kubernetes 云原生 CODING Nocalhost

2021年处置非法集资部际联席会议:密切关注打着区块链、虚拟货币等旗号的新型风险

CECBC

这份阿里P8技术专家整理的《一面到底》Java岗,GitHub已标星79k

Java架构之路

Java 程序员 架构 面试 编程语言

苹果(Apple Watch)手表使用必知必会19条

Flychen

苹果手表 IWatch Apple Watch

Flink的Checkpoint持久化存储方案

五分钟学大数据

flink 4月日更

理性看待区块链+大宗商品

CECBC

区块链

自动源代码质量度量(ISO/IEC 5055)

Tom(⊙o⊙)

软件质量 静态分析

网络协议学习笔记 Day2

穿过生命散发芬芳

网络协议 4月日更

插件化库VirtualAPK详解

寻找生命中的美好

android 插件化 VirtualAPK

ShutdownHook原理

捉虫大师

Java

【得物技术】得物分布式UI自动化实践

得物技术

测试 UI 质量 自动化测试 得物技术

4种语义分割数据集Cityscapes上SOTA方法总结

华为云开发者联盟

语义分割 OCR 数据集Cityscapes HRNet SegFix

马丁策略倍投软件开发,量化倍投系统

如何从零开始学Python:(7)如何解决发布和上传代码过程中遇到的问题?

广之巅

Python 4月日更

知识图谱+数据中台,会是未来中台战略的答案吗?_AI&大模型_佘磊_InfoQ精选文章