阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

知识图谱 + 数据中台,会是未来中台战略的答案吗?

  • 2019-11-22
  • 本文字数:4939 字

    阅读完需:约 16 分钟

知识图谱+数据中台,会是未来中台战略的答案吗?

3 月 27 日,明略科技宣布完成 20 亿人民币的 D 轮融资,宣布战略升级。在时隔近 8 个月后,明略科技将数据中台与知识图谱相结合的一系列动作,可能会成为其在“拥挤”的人工智能赛道中胜出的关键所在。


熙熙攘攘数据中台这一年过去了,关于中台的争论还没有停止,有人认为这是软件开发商故意炒作的话题,也有人认为这是企业数字化转型的必经之路。现阶段市面上那些普遍的“中台架构”,已经被市场所实践验证过的架构,是最正确、最具效率的中台体系吗?


随着人工智能领域的不断深化,各种新技术层出不穷,中台架构和其它平台一样,也面临着“与时俱进”和升级迭代的局面。目前的人工智能应用主要集中在对图片、视频以及语音能力的探究,在知识推理、因果分析等领域还缺乏相应的研究。知识图谱,作为人工智能领域,打通感知到认知这一过程中现阶段最有效的技术和工具,其承担着非常重要的作用。


作为国内知识图谱领域的领军者之一,11 月 15 日,明略科技集团在上海举办以“FASTER 聚变·增长新动力”为主题的 2019 数据智能峰会,宣布“打造智能时代的企业中台”新战略,同时推出“新一代数据中台”。


在当前国内企业市场中台“泛滥”的情况下, 明略科技高调踏入中台领域的原因是什么?明略科技将自身最拿手的知识图谱融入到数据中台的体系中,两者之间如何发生反应?带着这些问题,InfoQ 采访了明略科技集团技术中心负责人杨威以及知识图谱技术负责人孟嘉。


显然,明略科技不想以中台投机者的身份参与到市场中,而是要做一个行业的颠覆者与创新者。在接受 InfoQ 的专访过程中,他们反复向 InfoQ 强调明略科技在数据中台以及知识图谱领域内所做的一系列创新。

数据中台的核心 -DataAPI

数据中台火的十分突然,似乎年前还在炒概念,年后突然就冒出来各种中台的实践。当然其中有跟风的因素,但根本原因在于,“数据”的价值正在越来越受到企业的重视,数据正在成为企业最核心以及最重要的生产资料,成为决定企业业务转型的关键因素。企业需要一个源源不断的输出数据服务,数据洞察的能力源泉,数据中台的出现就成了顺理成章的事情。


明略科技集团技术中心负责人杨威认为,中台的作用在于打通固有多业务系统之间的数据壁垒,融合各个不同业务系统间所产生的数据,通过数字化的运营和驱动来支撑前端业务的快速变化,从而产生更大的价值。


这一年来,大家都在热衷于讨论什么是“数据中台”,不只是互联网企业,许多传统企业也存在着将数据整合起来的需求。目前市面上也有很多关于数据中台的“科普类”文章,但是大多都浮于表面,对于数据中台的内在核心 - 数据,却很少提及。


如果将数据中台理解为企业内部的数据大脑,这个数据大脑主要是用技术链接计算平台的数据处理能力,来负责对数据进行收集、分析、下发、整理等一系列的工作。因此,数据中台不但要将很复杂的大数据处理技术(流计算、批量计算、实时采集、离线采集、机器学习)封装起来,形成计算平台;同时进入数据中台的数据都需按照规范的建模方法论将数据形成主题域模型、形成标签模型或者算法模型,这类数据模型就是数据中台的最核心资产。


数据模型是通过数据中台内的数据建模体系模拟计算出来的结果,这类数据建模体系在中台内被称为 DataAPI,是整个数据中台建模体系的绝对核心。作为数据中台的核心,DataAPI 是连接前后台的桥梁,通过 API 的方式提供数据服务。因此,如何让 DataAPI 生产得更快,如何让 DataAPI 更加清晰,如何提升 DataAPI 的数据质量等这些围绕数据中台核心功能的能力,一定是数据中台中最重要的能力。而这,也正是明略科技将知识图谱引入到数据中台体系内的重要原因之一。

如何将领域知识图谱融入在 DataAPI 中

无非两种方式,一种是实现从面向业务过程的数据组织方式到面向业务领域的数据组织方式的转变,另一种则是深入挖掘常规数据中台体系下的隐性数据关系,这两者可以相互存在。


当前市面上的中台基础模型大同小异,这是因为其根本数据组织形式没有发生改变,都是通过将数据组织为传统的表结构这种普通的关系。


这种组织数据方式即面向业务过程的数据组织方式,通俗来说,就是将数据物理集中在一起。从存储的角度来看,数据就是一张张独立的表结构,如常用的会员表、订单表等,表与表之间无法再数据层面整合到一起,需要通过外在的辅助工具才能进行逻辑与数据梳理,因此这种形式又被称为物理集中,而不是逻辑集中。


这种传统的数据仓库,其优势在于统计性报表,同时这也是图数据库的劣势,因为图数据库的运作形式是在模型之间的不间断游走,这会是一个非常长的离线模型,通过索引以及一些技术,把统计的引擎也加载知识图谱中,所以用的是混合存储,也可以将其理解为用空间换时间,但是难点在于数据的一致性,因为之前已经将整体的数据拆散在不同的存储下,对于数据的最终一致性非常难保证。


将知识图谱引入到数据中台后,实现了面向业务领域的数据组织方式。通过明略科技所积累的知识图谱技术,将知识图谱融入在中台数据模型这一层,将所有隐性的最基础的语义,全部以显性的形式放到知识图谱里进行呈现,如何实现对于数据间隐性关系的挖掘?明略科技采用了以下两种方式:



明略科技领域知识图谱落地流程


将领域知识图谱引入到数据中台下的数据模型层,基于图挖、机器学习技术来实现隐性关联关系挖掘,从而实现面向业务领域数据组织方式的转变,并以此来满足图谱节点相似度测算、节点重要性测算、关系图中的频繁模式子图、多节点子图挖掘、社区发现、两两关联、聚类等业务需求。


此外,基于业务规则定义,也可识别潜在的数据关联关系。基于轨迹信息、标签规则、交易规则、一致行动人规则等业务知识的输入,形成实体关系事件的知识图谱数据模型,将数据模型引入到知识图谱计算引擎中,到如同一数据视图,基于 DSL 语法描述规则逻辑,编译生成可以在 Spark 上运行的 Scala 代码。


这赋予了数据中台深入观察数据潜在价值的能力,将所有隐性的最基础的语义,全部以显性的形式放到知识图谱里进行呈现,将整个数据打通,这是明略特色的数据中台和之前的中台最根本的区别,也可以将其视为数据中台从数据整合分析平台向数据自动化智能学习平台迈进的一个重要节点。


目前,知识图谱作为知识的一种形式,已经在语义搜索、智能问答、数据分析、自然语言理解、视觉理解、物联网设备互联等多个方面发挥出越来越大的价值。中台需要知识图谱来为其提供更高效的数据收集、处理、分析及可视化能力,知识图谱需要中台来为其提供完美适配的环境,知识图谱与数据中台的结合,看起来就是互相需要的一个过程。

中台 + 知识图谱 = 明略科技的特色数据中台

像企业转型中台一样,中台与知识图谱的结合也是一个自然的过程。


明略科技集团知识图谱技术负责人孟嘉提到,整个数据中台大体系是由一整套方法论组成的,把知识图谱的理念引入到数据层和应用层,就像企业转型需要用到数据中台一样,这是一个自然而然的过程。


明略科技将知识图谱融入在智能化知识服务这一层有十分重要的意义,一方面,这相当于将知识图谱视为下一代的数据组织形式、新的数据存储形式以新一代数据基础设施,另一方面,对比上一代或者现在主流的数据存储形式,知识图谱确实能够更好的在数据中台内部完成人工智能的工作。

特色一:数据中台的数据服务层

明略科技的数据中台基础模型与市面上的其它中台相比,是将知识图谱的概念加到数据基础模型里。孟嘉提到,知识图谱有一个特点,就是面向业务领域的数据组织形式,可以抽取实体关系、事件、标签、模型、规则等条件,存成以图为基础的数据形式,而不是传统的表结构。这些数据中包括如何保存推理规则和专家经验,使得知识图谱的数据真实性大大提升。

特色二:将知识图谱当作数据的基础组织与存储形式

传统的数据组织形式类似于数据仓库这种,其中没有突出知识图谱的理念。数据中台的作用是将数据整合起来,以 API 接口的形式统一给前台赋能,以适应前端快速的业务变化,其中包括共享机制、协作机制等,都是通过数据层进行传输。知识图谱通过贯穿这一层面,通过自然语言等形式的输入,可迅速调用 PB 及以上量级数据之间的关系,系统自动推理辅助分析并得出结果,可以将这看作是新型的数据存储与组织形式。具备以下几个功能特点:


混合存储技术,包含图数据库、列式存储、全文索引、文件存储等;扩展的数据模型,涵盖时间序列事件、地理位置属性以及图谱变迁历史;知识查询语言,基于知识图谱数据库来打造面向实体 - 关系 - 事件 - 属性等数据类型的声明式查询接口;时空多轨分析,基于时间和地理范围的轨迹碰撞,通过轨迹明细检索,形成包含二维关联信息、时空信息、历史状态信息等多个层次的知识基础;复杂图谱分析,具备在线隐性关系扩展、多维度组合条件搜索碰撞以及最短路径分析等方法。通过将上述的一系列方法论和具体的功能实现,明略科技将自身在领域知识图谱中的技术,融入到数据中台,为企业打造真正具有行业 Know-How 的新一代数据中台。

打造最具行业 Know-How 的数据中台

在明略科技看来,最具行业 Know-How 的数据中台,一定是由“数据和知识双驱动的”数据中台,如果只是单方面的从数据角度去驱动,会逐渐禁锢中台的发展。数据中台,应该是一个键智能推荐、智能营销、领域图谱、AI 决策为一体的平台,而并非企业数据的中转站。


明略科技通过在传统中台优势的基础上对数据做进一步打通,进一步挖掘数据内部的价值,应用知识图谱于中台内部建立起多维度数据模型,确保中台要拥有持续学习的 AI 能力基础。


明略科技特色的数据中台,最主要有三个方面特点:

协助企业维系统一的数据组织架构

明略科技集团技术中心负责人杨威说道,“如果想要了解企业的业务情况,最好的方式就是了解企业用了哪些数据。”以前是从业务去查看数据,在具备知识图谱体系后,可以从数据反推业务,通过知识图谱就能了解到当下行业内的重点以及相关企业的主营业务范畴;


另外,极高的可扩展性也是企业内部架构的必须。现阶段大多都基于关系型数据库来构建数仓或基于大数据来构建数仓,这两者本质的区别在于基于大数据所构建的数仓的承载力更强,能够实现更加复杂的模型计算,维度的计算量也更大。但是也存在局限性,就是基于大数据所构建的传统数仓,并没有突破传统通过关系图来描写数据的方式,牵一发而动全身,往往新增数据还需要同时新增与之相匹配的表、类型和相应的业务系统,步骤非常繁琐。


而知识图谱是基于整个网络图来进行数据描述,在有新的数据种类、节点加入进来后,通过将这些新数据和其它已有数据建立新的关系,保证数据不断层,从而能够为中台体系内的数据基础设施赋予可持续成长的能力。除传统数仓本就能做的工作之外,一些诸如画像、推荐、问答、搜索等新的业务场景下,可以直接在图谱上做,不需要重复构建搜索、画像等业务系统。

提升数据的协作性

中台毕竟是一个巨大的系统和体系,需要不同的人进行相互之间的协作。这个协作,包含有几个含义:提升每一个人对于数据的信任度。通过监控每一个数据的生命全周期,生产 - 处理 - 消费的全过程,以及过程中所相关的人和这个人做的操作,将这些操作和代码统一管理起来,全流程可视化,每一个人都可以详细看到每一个的进程,可以大大提升开发者对于系统和数据的信任度。


分享和复用一直是数据协作的理念,以前大家使用数据的方式都提走一份数据,在自己的电脑上做分析之后并产生报告就结束而。中间的分析过程、计算过程和报告的洞察 insight 并没有积累下来。因此更希望整个的计算过程和所有的计算结果是可以被写回到后面的中台和图谱里面去,所以这些洞察 insight 和过程都会保留下来,可以被其他的人分享、复用,这也是数据协作的理念。

用知识图谱丰富数据中台

最后,明略科技技术中心负责人杨威强调,企业做数据中台,是想要将来自于多条业务线且复杂的数据整合起来并进行高效、有价值的分析。知识图谱之于中台,不只是简单的将数据组织成一张数据网络然后再提供数据服务,而是所做的是融合了从智慧到知识的过程,包括规则、算法、推理等程序性支持,有了这些支撑,才能丰富数据中台相关的数据服务能力。


此外,企业打造了数据中台,也一定要有业务中台,否则数据中台就是个“空架子”,没有可以服务的对象。从数据中台到业务中台,无论是架构、技术接口还是逻辑,都应该是无缝链接,有了知识图谱,才能够实现对上层业务更加强有力的支撑。


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-11-22 14:334395
用户头像
佘磊 策划编辑

发布了 50 篇内容, 共 20.2 次阅读, 收获喜欢 76 次。

关注

评论

发布
暂无评论
发现更多内容

密码学系列之:明文攻击和Bletchley Park

程序那些事

加密解密 密码学 程序那些事 明文攻击

生产环境全链路压测建设历程第四篇 技术体系的发力

数列科技杨德华

如何使用 JuiceFS 在云上优化 Kylin 4.0 的存储性能?

苏锐

大数据 kylin 性能优化 JuiceFS

区块链技术生态持续优化,五大趋势不容忽视

CECBC

区块链 场景应用

架构师训练营第十二周作业

我是谁

极客大学架构师训练营

roblox mini map

katichar

第四章作业

走走,停停……

如何预防勒索攻击事件?这份安全自查指南请查收

京东科技开发者

数据安全 数据加密 系统安全

Java并发编程:进程、线程、并行与并发

码农架构

Java并发

学习笔记3

Qx

在构造函数中调用其它构造函数会有什么问题吗?

jiangling500

Java c++ C++11 构造函数

分布式时序数据库DolphinDB与InfluxDB对比测试报告

DolphinDB

数据库 大数据 Influxdb 性能测试 DolphinDB

有钱还APP系统开发|有钱还软件开发(现成)

系统开发

可见性是什么?(通俗易懂)

叫练

volatile JMM 多线程 synchronized

C++typename的由来和用法

良知犹存

c++

Spock单元测试框架实战指南五 - void方法测试

Java老k

Java 单元测试 spock

为什么删除数据后,Redis内存占用依然很高?

Java架构师迁哥

第三周作业

走走,停停……

GO 训练营第 3 周总结

Glowry

最值得Deepin的思维模型“组合创新” | 技术人应知的创新思维模型 (3)

Alan

创新 思维模型 28天写作

区块链打破数字医疗桎梏,赢数据未来新生

CECBC

区块链 医疗

Mock | 拦截ajax的两种实现方式

梁龙先森

Java 大前端

为什么要有 Servlet ,什么是 Servlet 容器,什么是 Web 容器?

yes

tomcat Web Servlet

话题讨论 | 对于懂得编程的人来说,编程对你来说有什么乐趣?编程大概是什么感觉?

xcbeyond

话题讨论

Norns.Urd 中的一些设计

八苦-瞿昙

C# 随笔 随笔杂谈 aop

架构作业--大数据

Nick~毓

话题讨论 | 说说那些"Oh my god"的时刻

Kurtis Moxley

话题讨论

架构词典:质量

lidaobing

架构 质量管理

Flutter技术在会展云中大显身手

京东科技开发者

flutter 跨平台 移动开发

摄像机不智能,基本等于不讲武德

脑极体

只谈链不谈币,区块链会发展成什么样的方向?

CECBC

区块链

知识图谱+数据中台,会是未来中台战略的答案吗?_AI&大模型_佘磊_InfoQ精选文章