【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

构建行业知识图谱切勿操之过急,这里有三大前提条件

  • 2020-03-08
  • 本文字数:5173 字

    阅读完需:约 17 分钟

构建行业知识图谱切勿操之过急,这里有三大前提条件

回看 2018 年,当人工智能经历了语音识别、图像识别两轮热炒后,知识图谱等认知智能成为最火热的人工智能细分领域。在这波浪潮中,大数据公司纷纷踏入认知智能领域。


当其他公司还在大谈认知智能概念时,百分点已经基于 NLP、知识图谱等技术在公安、媒体、快消零售等领域出现落地案例。



近期,爱分析对百分点首席算法科学家苏海波博士进行访谈,他对知识图谱当前落地场景、面临的挑战,以及百分点在知识图谱领域的实践进行了系统阐述和分享。

01 基于认知智能技术 构建全新决策引擎

百分点作为一家大数据和认知智能领域的标杆公司,底层大数据基础平台产品 BD-OS 经过多年打磨,可以提供很强的数据接入、存储、治理等数据处理环节支持能力,从而支持百分点在公安、政务、快消零售、融媒体等多个领域成熟的落地应用。


但在百分点与各个领域客户深度合作过程中,无论是客户还是百分点自身,都产生了新的需求。


第一,传统数据仓库更多是对结构化数据处理能力强,对非结构化数据处理能力较弱,但大数据深度落地行业时,需要进行行业深度数据挖掘,处理非结构化数据能力不可或缺。


第二,大数据落地应用从监测、洞察逐步迈向分析、决策过程中,不再是像传统 BI 一样,给出报表和分析结果,由业务人员做进一步决策,而是机器本身要能做一些简单决策,需要机器更加智能,能够理解业务逻辑。


第三,当大数据、AI 更加贴近应用时,客群正逐步由 IT 人员变成业务人员,需要降低大数据、AI 的使用门槛,让技术平民化,获得更好的用户体验。


基于上述需求的出现,百分点逐步将 NLP、知识图谱等技术加入到决策引擎中,从而满足不断产生的新需求。


针对数据分析工具,百分点在传统 BI 分析工具中加入了智能交互分析,分析人员不用再写 SQL 语句,直接用自然语言来实现查询,这进一步降低了分析工具的使用门槛。



在落地行业应用中,百分点将动态知识图谱技术应用到公安、政府等行业,从而降低了公安等行业的数据治理工作量,能够实现快速对异构数据的处理。同时,NLP 技术在零售快消领域的落地,可以通过对海量网站上用户评价等文本数据进行处理,从而更加精细地分析用户行为,指导零售客户更好地了解用户反馈,做产品改进。

02 应用先行,百分点深度迁移学习将数据标注成本降低为原先的 10%

2018 年知识图谱技术大火,很多传统大型企业都在试水知识图谱,但在实际落地时遇到了不少挑战。


构建知识图谱的三要素是实体、属性和关系,其中第一步是定义实体,而定义实体必须要与上层应用结合,从应用出发去考虑实体建立方式,同时必须与业务人员配合,一同完成实体定义。如果不考虑应用场景,直接从构建知识图谱出发,那么,当实体和关系过少则无法满足应用需求,当实体和关系过多则模型构建成本过高。


百分点在落地知识图谱时,也更多的采取应用先行的策略。以公安行业为例,百分点通过和省市级公安局合作,按照“人、物、组织、时空、虚拟标识”等维度将公安领域的数据映射到数字世界,实现了公安领域的动态知识图谱构建。


这其中,百分点的优势在于,一方面,百分点从 2013 年开始服务传统企业,对传统企业的应用场景相对了解,同时与很多企业建立了长期合作关系,双方基于垂直场景定义实体、构建知识图谱的路径是可行的。


另一方面,依托百分点的全栈大数据能力,尤其在底层数据平台的能力,经过多年的积累,数据治理经验丰富,因此可以很快接入构建知识图谱所需的各类数据。


除了上述两点,百分点在 2018 年发布的深度迁移学习技术同样起到了关键作用。构建知识图谱中数据标注会耗费大量工作和成本,在许多专业的垂直领域,必须要通过行业专家来实现数据标注,这样就会带来标注成本的显著提升。


百分点通过深度迁移学习技术,将数据标注成本降低为原先的 10%以下,分析效率大幅提升,更好地支持公安、零售等领域的行业知识图谱落地。

03 大数据渗透高的行业 更容易构建知识图谱


爱分析:我们会把 NLP 和知识图谱结合起来看,从您的角度来看,知识图谱和 NLP 存在哪些差异?


苏海波:二者有关联也有差别,主要体现在于构建知识图谱的过程中。公安领域主要是用知识图谱技术基于结构化数据来构建,其实跟 NLP 关系不大。但在公检法、媒体出版、快消零售、司法等诸多领域,还需要很多的非结构化数据来构建知识图谱,当这种非结构化数据去构建实体和关系的时候,就需要用到 NLP 技术,才能把知识图谱构建出来。


爱分析:构建知识图谱,定义好实体、属性和关系是由百分点决定的?


苏海波:这些更多的是由业务方来决定的。业务方要去构建一个知识图谱的时候,首先要定义好 Schema,譬如公安领域要定义好人、物品、组织等,每个实体还会有对应的属性,比如人的性别、年龄、学历等。


公安的知识图谱是对现实世界中实体和实体之间关系的刻画。比如人和人之间会有关系,同学关系、家属关系、同事关系;人和物之间也有关系,比如人和车、人和电话等。


在构建知识图谱之前,一定要先想好应用,要解决什么问题。知识图谱现在应用包括搜索、推荐、问答、关联分析、决策等等几种典型的,例如可以将知识图谱的关联分析应用在公安领域。


想好应用,定好 Schema 之后,接下来要准备数据,比如公安领域可能会有运营商的数据、人口的身份数据、互联网上抓取的数据等。然后,按照定义的 Schema,从非结构化数据和结构化数据中,抽取出各种各样的实体、属性和关系,进行知识融合,存储到图数据库中,去支持上面各种各样的应用。


爱分析:像公安、媒体、司法等客户,他们习惯于一个应用建立一个知识图谱,还是会整体建立统一知识图谱,支撑全部应用场景?


苏海波:在公安和司法行业,如果所有应用依赖的数据和知识是复用的,它们可以共享一套知识图谱。而在媒体出版行业,不同的应用场景,构建的知识图谱可能会有区别。


爱分析:哪些行业是做数据治理后,很容易就会产生初步效果的?像医疗这种因为数据治理效果不明确,所以从数据治理切入不太容易。


苏海波:投入产出比较好的第一个肯定是金融行业,可以基于知识图谱做风控,现在落地案例会相对多一些。


第二个是公安行业,公安数据是要细化到每个人身上,把人的所有数据关联起来,辅助去做案件推断,它在知识图谱的落地只是时间问题。国内公安现状是,数据割裂比较厉害,目前阶段都在花比较多的时间做知识图谱,这对以后肯定非常有价值。


爱分析:所以,本质上还是大数据渗透比较好的行业,用 NLP 把底层数据治理做得更好,这种客户会更愿意接受?


苏海波:对,我们在做的零售快消行业,也是基于海量数据做分析,比如电商数据、微博数据、帖子数据等,从中分析大家讨论的哪个产品、哪个品牌、哪个型号、哪种属性以及对应的情感倾向,本质上采用的也是知识图谱技术。基于这些数据,就可以知道消费者对品牌、型号等产品非常细粒度的评价,去指导产品的改进方向。

04 知识图谱落地有三大前提条件,2B 领域需要行业知识图谱

爱分析:基于知识图谱会出现一些新的公司吗?


苏海波:知识图谱领域,目前没有看到哪家公司纯靠技术,就能很好的在行业落地。


第一,知识图谱落地不单单只是个技术问题。我们在跟很多客户聊的时候,他经常会说你帮我建个知识图谱,但对知识图谱具体解决什么业务问题,基于什么数据来做,到底能够构建成什么样,其实很多时候客户是不太清晰的。


第二,很多技术供应商虽然有 NLP 技术,或者知识图谱技术,但他不懂客户的业务,对知识图谱真正怎么落地、要满足什么条件才能落地,很多企业对这些认知还不太明确。


知识图谱项目落地要满足一些前提条件。


第一,应用场景要具体明确,知识图谱通常的应用包括搜索、问答、关联分析、决策分析等,应用先别想得太复杂,越简单越具体的应用,更加容易落地。对于应用场景没有想清楚的知识图谱项目,往往很难落地取得成功。


第二,应用依赖的领域知识有清晰的边界,指的是应用依赖的领域知识能够由客户内部的数据源结合外部的数据源进行覆盖,这些数据源越具体越好。


第三,需要人工介入的工作量是可控的,如果应用场景对于知识图谱有苛刻的质量需求,例如医疗行业中药物对应的病症是不能出错的,或者是知识图谱构建的粒度很细等等,这些都需要较多人力介入,可控是指对应的人力成本不能超过客户的承受范围。


爱分析:刚才提到的知识图谱应用,哪些会相对困难一些?


苏海波:知识图谱早期是由 Google 提出,目的是提升搜索效率,直接看到对应的结果。所有互联网公司,只要它们有足够的用户量和流量,结合知识图谱技术对搜索、推荐的效果进行提升,这是非常有价值的。


对传统行业来说,知识图谱一定要考虑性价比,之所以现在知识图谱在各个领域落地案例不多,是因为很多行业客户对知识图谱能解决哪些问题,满足哪些条件,其实是不太清晰的。第二,很多技术供应商也不是很清晰,一上来先是构建一个大的知识图谱,然后再去想应用,这种项目通常会失败。


目前从实际落地来看,互联网公司的搜索、推荐、问答等场景落地会比较容易,金融行业也在逐渐落地,其他行业如公检法、媒体出版等等,相对会慢一些。


在知识图谱的几类应用中,决策是最难的,基于认知智能做决策一直以来是人工智能想要达到的目标。


爱分析:搜索、推荐为什么可以做成比较通用的场景?


苏海波:因为这种是 2C 的,用户有这个需求,在流量足够的情况下,它的投入产出比很高。但对 2B 的客户来说,能够带来的价值提升是个疑问,企业需要考虑投入的性价比。


爱分析:知识图谱的构建成本大概是怎么测算的?


苏海波:如果只算从数据中抽取出实体、属性、关系的成本,跟实体、属性、关系的数量有特别大的关系,假设要构建模型,先要做数据标柱,每种模型需要 5000 条标注数据,哪怕只有 100 种实体、属性和关系,就需要 50 万标注数据。按照现在的标注速度,需要几十个人月的专家标注,标注好数据之后,还需要算法工程师训练和调优模型,成本就会非常高。


这还是建立在应用场景、数据想清楚的前提下,在实际落地中,应用场景和数据还会遇到很多问题。


爱分析:迁移学习对数据标注这个事情有哪些提升?


苏海波:举个例子,深度学习需要的标注量会特别大,例如做情感分析,需要好几万的标注数据才能达到 80%左右的效果;而用深度迁移学习,可能只需要 500 条数据就能达到同样的效果,这是 NLP 技术一个质的突破。


深度迁移学习的核心思想是结合一个通用学习任务,得到一个预训练模型,然后将这个预训练模型应用到各个实际要解决的问题,这样就能大大减少标注的数据样本数。这个技术最早应用在图像领域,去年在 NLP 领域有了大的突破。

05 认知智能的两大内核:语言 认知和数据认知

爱分析:百分点也在提认知智能,我们总觉得大数据和认知智能的差别不大,这本身就是一回事,还是存在一些差异?


苏海波:大数据和认知智能是有差别的,大数据更多指的是海量数据的采集、接入、存储、分析、查询等,尤其涉及到海量数据的数据处理,包括 Hadoop、Spark、Storm 等大数据组件的使用。当然大数据里面还包括关联分析、数据挖掘和机器学习,以及利用大数据去做预测。


认知智能的核心是两部分,第一是对语言的认知,涉及到如何进行语言的自然化理解,能够跟人类进行交互,例如智能问答、BI 决策的智能交互分析等。第二是要能够对数据进行认知和理解,能够从海量的数据当中抽取结构化的知识和知识之间的关系,并辅助人进行决策,需要用到自然语言处理和知识图谱等技术。


现在感知智能方面,无论图像识别还是语音识别,目前都已经算是做得比较好了。下一个黄金十年应该就是认知智能,有很多的问题需要解决,而且现在看到它离我们日常生活也越来越近了,比如智能交互,现在我们身边各种 APP、音箱的智能交互已经越来越普及了。


爱分析:认知智能在各个行业的渗透,它是必须依靠大数据渗透到一定程度之后,认知智能才能爆发吗?还是两者可以同步的进行?


苏海波:认知智能的渗透比大数据挑战会更大一些。因为大数据的应用场景是非常广的,哪怕做一个大数据平台、做个数仓都可以说是大数据。从 2018 年开始,很多的客户希望往人工智能上面走,其实认知智能就是一个非常重要的方向。


爱分析:原来大数据项目都是以项目交付作为结束,未来认知智能会不会在商业上产生一些新的模式?


苏海波:最开始是定制化的项目交互,也就是 1.0 状态。之后在项目中抽取出一些共性的需求,做成 SaaS 类的服务,这是 2.0。3.0 是我们开始跟客户联合运营一些系统,采用销售分成的模式,例如我们的某些大客户有很好的资源,比如人民出版社,我们和他们联合运营了一款党员小书包 APP。简单来说,就是在客户有资源的情况下,我们相当于客户的技术合伙人,联合来运营一个产品。


爱分析:百分点 2018 年在哪些行业落地进展更快一些?


苏海波:从发展速度来看,公检法发展速度应该是最快的,公安领域在 2018 年将大数据作为非常重要的战略方向,大数据的需求非常旺盛,发展很快。其它行业,包括零售快消、媒体出版、政务等领域也齐头并进,不断地有项目案例落地。在 2019 年,这几个行业也是我们重点发力的方向。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-03-08 16:441580

评论

发布
暂无评论
发现更多内容

2021高级Android笔试总结,Android系列学习进阶视频

欢喜学安卓

android 程序员 面试 移动开发

推特视频怎么保存: 免费下载Twitter视频教程

科技猫

twitter 分享 经验分享 教程 视频处理

从根上理解用户态与内核态

程序猿阿星

系统上下文 用户空间 内核空间 指令集

一张图看懂嵌入式系统组成

不脱发的程序猿

硬件开发 嵌入式系统 嵌入式学习路线

RDBMS与HBase的对比

五分钟学大数据

大数据 HBase 5月日更

云小课|DSC帮您管数据,保障您的云上数据安全

华为云开发者联盟

数据安全 华为云 数据安全中心 云上数据 DSC

java中的Stream实践

林一

Lambda stream java8

Alibaba技术专家必知必会的Java技术知识点,掌握这些理论+实践+技术是你通往阿里的路

Java架构之路

Java 程序员 架构 面试 编程语言

不给电脑,我用手机敲命令十分钟完成了zabbix监控,面试官当场下offer

沐风

监控 zabbix

uniapp 使用原生子窗体进行视频聊天

anyRTC开发者

uni-app 音视频 WebRTC RTC

拍乐云将亮相 QCon 大会,揭秘音视频“两高一低”体验背后的技术

拍乐云Pano

CODING 增强安全漏洞扫描能力,助力团队“安全左移”

CODING DevOps

代码扫描 CODING 代码安全

国内日志监控分析王者之sls

代码先生

分布式日志 海量数据分析 日志监控分析

🚄【Redis 干货领域】帮你完全搞定Sentinel运作原理

洛神灬殇

redis哨兵模式 redis哨兵 redis哨兵集群 redis sentinel 5月日更

【LeetCode】将句子排序Java题解

Albert

算法 LeetCode 5月日更

边缘计算应用领域

lenka

5月日更

超详细!看完阿里大师的Java成长笔记后,差距真不是一点点

Java 程序员 架构 面试

打破固有思维(十五)

Changing Lin

5月日更

GitHub标星15k+的Java编程思想最新中文版,肝了一周整理成1539页的PDF文档免费分享!

Java架构之路

Java 程序员 架构 编程语言

融合创新,降低门槛,飞桨推动人工智能走通工业大生产之路

百度大脑

人工智能 飞桨

墨奇科技宣布完成 2.5 亿元 B 轮融资

E科讯

亿级系统的Redis缓存如何设计?

Java架构师迁哥

量化策略交易软件,马丁倍投智能交易机器人

2021金三银四Android大厂面试题来袭!高级面试题+解析

欢喜学安卓

android 程序员 面试 移动开发

阿里架构师478页Java工程师面试知识解析笔记pdf,一份2021年通往阿里的面试指南

Java架构之路

Java 程序员 架构 面试 编程语言

为Android Studio设置代理,解决经常遇到的编译不通过的问题

寻找生命中的美好

android Android Studio vpn Shadowsocks

图扑软件正式加入腾讯智维生态发展计划,聚焦智能IDC

一只数据鲸鱼

数据中心 数据可视化 机房管理 智能IDC

网络攻防学习笔记 Day21

穿过生命散发芬芳

5月日更 网络攻防

GitHub开源史上最大规模中文知识图谱

不脱发的程序猿

人工智能 自然语言处理 GitHub 开源 中文知识图谱

GitHub收藏最高的10个Java练手项目推荐

北游学Java

Java spring 项目实战

CODING CD + Nginx Ingress 实现蓝绿发布

CODING DevOps

DevOps 敏捷开发 研发管理 CODING 研发团队

构建行业知识图谱切勿操之过急,这里有三大前提条件_文化 & 方法_百分点认知智能实验室_InfoQ精选文章