写点什么

一朝爆发?解读知识图谱和图数据库的 2018

  • 2019-01-16
  • 本文字数:2589 字

    阅读完需:约 8 分钟

一朝爆发?解读知识图谱和图数据库的2018

知识图谱最初是由谷歌提出的,用来优化搜索引擎的技术。而本质上, 知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。


随着人工智能技术的发展和应用,知识图谱在学术界和工业界都得到了重视,如今在智能搜索、智能问答、个性化推荐、内容分发等领域均有应用。那么,为什么知识图谱时隔多年才有突然“爆火”?目前知识图谱和图数据库的发展如何?2019 年知识图谱和图数据库又会有哪些新趋势呢?

为什么我们现在才需要知识图谱?

事实上,知识图谱早在 2012 年就已经提出,但是直到 2017 年,我们才看到一些应用。为什么知识图谱需要这么长的酝酿时间呢?这是由多种因素造成的:


  • 感知复杂性:虽然 RDF 在概念上很简单,但是在学术界常常评价"RDF 产生的文件并不接地气,而且很难达成统一的意见。”

  • 需要更改后端:如果要实现知识图谱可视化,那么就必须采用一种新的后端形式或者是图数据库,而这对于企业、用户来说就意味着风险、不确定性、数据复制和 ETL 等工作。

  • 软件不成熟:目前市面上存在的图数据库都有很大的局限性,要么不能分布式,要么使用繁琐,要么两者兼有。

  • 目光超前或者目光短浅:企业或者用户并没有找准知识图谱的应用场景,有些人试图在一些没有必要应用知识图谱的场景中应用,结果不尽如人意,导致知识图谱的应用失去原动力;而另一些人则相反,他们完全忽略了知识图谱的作用,坚定的认为任何特定的业务级问题都可以通过使用传统技术和特定的 API 得到解决。


随着软件的逐渐成熟和视觉技术的发展以及企业和用户对应用场景的探索,知识图谱才渐渐找到了适合自己的发展之路。

2018 年知识图谱和图数据库市场亮点满满

前文我们提到了知识图谱现在在多个场景中都有应用,主要集中在社交网路、金融保险、零售广告、传媒通信等行业。国内的知识图谱玩家大致可以分为两大部分,一部分是互联网巨头入局,例如现在已发布的阿里商品知识图谱、腾讯云“星图”、百度“知心”等,另一部分是创业公司,如果百分点、明略数据、文因互联等。


为了避免与 BAT 等大厂直接交锋,国内的知识图谱创业企业往往是以垂直领域作为切入点,一部分企业专注于单一垂直领域,如聚焦金融领域的文因互联、智言科技等,还有一部分企业是涉足多个垂直领域,例如主攻公安、金融、工业等领域的明略数据。


如果我们把目光放到知识图谱的国际市场,那么也有亮点可挖掘:


1)巨头玩家入局:Amazon Neptune 和 Microsoft Cosmos


2018 年 5 月,亚马逊正式宣布图数据库 Amazon Neptune 全面上市,同时支持两种图形模型(RDF 和 Gremlin)。虽然,时至今日 Amazon Neptune 还没有一些突出的性能数据和使用案例,但是“亚马逊”这块金字招牌无疑会给 Amazon Neptune 在技术和生态方面增色不少,众多企业和用户都对 Amazon Neptune 充满了信心。


2017 年,微软推出了多模数据库 CosmosDB,并在之后对其进行了一系列的增强,例如支持 gremlin 和其他访问 API。


2)中坚力量的成长:Stardog 和 OnToText


Stardog 和 OnToText 都是企业级知识图谱领域的中坚力量,在 2018 年这一年中,Stardog 通过 300 万美元的追加共获得了 900 万美元的 A 轮融资。Stardog 具备高度的灵活性和可重用性,可以统一所有企业数据,包括各种类型的数据库和数据源。


2018 年 Ontotext 发布了 GraphDB 8.7 版本,归功于新插件的应用,该版本中增加了对知识图谱概念匹配的支持,在性能方面实现了在单个数据库实例中托管存储库之间高效的查询联合。


3)新玩家的迅速崛起:Tiger Graph 和 Dgraph


2017 年底,Tiger Graph 宣布完成了 3000 万美元的融资。2018 年 Tiger Graph 推出了云托管服务,并且使用了一种新的查询语言 GSQL,GSQL 将 SQL 风格的查询语法与 Cypher 风格的图导航语法结合在一起,并加入了过程编程和用户自定义函数。


Dgraph 是一个完全分布式的图数据库,其创造者与 Freebase(现为谷歌知识图谱的核心)的创造者为同一人,目前遵循 Apache 2.0 开源协议。


4)开源多模 DB 的成长与智能化:Arangodb 和 OrientDB


ArangoDB3.4 版本令人印象深刻,其在本地集成了完整的信息检索引擎和地理查询功能,以补充其本地的关系和图形功能。目前,Arango 遵循 Apache2.0 开源协议,同时也附带了一种类似 SQL 的查询语言。而 OrientDB 是 SAP 的一部分,其发布的 3.0 版本,主要关注性能改进和 Tinkerpop3 支持。


5)著名知识图谱的发布:refinitiv 和 bloomberg)


2018 年,Bloomberg 宣布提供接入企业用户,企业服务以传统 CSV 提供,同时也支持使用基于 RDF 的格式。Refinitiv 是一个金融实体及其关系的策划知识图,扩展了公共可用的许可知识图。



6)发展趋势:知识图谱兴趣满满,而图数据库意兴阑珊


如果整体来看,2018 年知识图谱和图数据库都处于上升态势。



谷歌趋势也证实了 DB-Engines 的趋势,知识图谱在两年前开始了稳步增长,在过去的 12 个月中,知识图谱的热度增加了 34%。



不过这种热度并没有延续到图数据库中,2018 年图数据库的增长趋势较为平缓。


7)知识图谱的应用和图数据库的发展息息相关


从上文中,我们看到知识图谱和图数据库都在上升态势,二者息息相关。目前企业使用知识图谱或图数据库的主要疑虑就都集中在“复制数据”(也称为 ETL)或者使用新的后端替换原来的后端。所以,接下来图数据库需要大步前进了!

2019 年,知识图谱和图数据库还需要继续加油!

虽然知识图谱和图数据库的市场份额还不够大,但是它们正处在上升期,技术也在稳步前进中,而且知识图谱能在以更低的成本和风险在生产中实现收益,所以在 2019 年中,大家还是要持续关注知识图谱。


  • 如果您之前应用过“知识图谱”或者是“图数据库”,并且遇到过坑,那么,2019 年您可能需要继续关注它们,也许您之前遇到的坑都被填平了;

  • RDF 的优势在于其提供了一个共享图形的标准,在没有 RDF 存储的情况下,很难使用 RDF 制作出好的作品;

  • 简单的属性图方法(Neo4j、Tiger Graph 以及所有多模 DB)更接近于 JSON、GRAPHQL,也是大家真正想要的东西。

  • 知识图谱并不只是由“存储”构成,如果要是完全替换现有的生产系统也是不太现实的,所以我们可以考虑以下做法:

  • 创建 GraphQL API,使企业应用程序能够以“知识图谱”的方式使用数据;

  • 通过某种工具直接连接到后端,并查看数据中已有的知识图谱。


参考链接:https://dzone.com/articles/my-list-of-7-great-2018-advancements-in-enterprise


2019-01-16 10:0133348
用户头像

发布了 34 篇内容, 共 29.0 次阅读, 收获喜欢 58 次。

关注

评论 2 条评论

发布
用户头像
主要集中在社交网路、金融保险、零售广告、传媒通信等行业。 这一句的“社交网路”是否是“社交网络”?
2019-08-22 17:23
回复
用户头像
文中没有提到JanusGraph,不知道这个图库系统后续前景如何。。。
2019-01-16 12:36
回复
没有更多了
发现更多内容

Apache ShenYu源码阅读系列-基于WebSocket的数据同步

子夜2104

Java 开源 网关 shenyu

从 0 到 1 开发一个聊天通讯 服务 复盘总结分享

程序员海军

Vue 大前端 websocket 实时通讯 引航计划

主机监控用什么软件好?监控机制是怎样的?

行云管家

运维 IT运维 主机监控

玩转anyRTC用户控制台

anyRTC开发者

音视频 WebRTC 语音通话 视频通话 用户后台

作业八:设计消息队列存储消息数据的 MySQL 表格

燕燕 yen yen

#架构实战营

译介:《电动滑板车的崛起》

姬翔

通过线路输入功能快速创建吉他谱

懒得勤快

【预告】网络研讨会|下一代汽车操作系统微内核seL4:seL4基金会主席谈物理系统安全工程实践

鉴释

自动驾驶 操作系统 微内核

来自阿里巴巴佛系Java程序员的指南,惊喜

Java 程序员 后端

鲲鹏BoostKit虚拟化使能套件,让数据加密更安全

华为云开发者联盟

鲲鹏

不愧是阿里内部“千亿级并发系统架构设计笔记”面面俱到,太全了

Java 架构 面试 后端 高并发

普通二本的辛酸Java面试之路,34岁Java程序员裸辞

Java 程序员 后端

某大厂开发者对于Java多线程的总结,Java排序算法面试

Java 程序员 后端

“人类高质量数据”如何训练计算机视觉模型?

澳鹏Appen

计算机视觉

【Vuex 源码学习】第三篇 - Vuex 中 State 状态的实现

Brave

源码 vuex 9月日更

没想到专科的我也能拿到年薪30W的offer,仅凭阿里这份JDK源码笔记

Java架构师迁哥

音视频编解码流程与如何使用 FFMPEG 命令进行音视频处理

声网

音视频 ffmpeg

闲鱼消息发展回顾

OpenIM

在外包做开发3年,为了进大厂,耗时半年,整合出25W字Java全栈面试题,这就是我的决心

Java架构师迁哥

三年开发经验,从抖音组离职后,一口气拿到15家公司Offer

Java架构师迁哥

60w“跳”进腾讯!你知道我经历了什么吗?

Java架构师迁哥

包头市企业如何申请等保测评?去哪里申请?联系电话是多少?

行云管家

网络安全 等级保护 等保测评 等保评测 包头

Android音频API

轻口味

android 音视频 引航计划 9月日更

我用MRS-ClickHouse构建的用户画像系统,让老板拍手称赞

华为云开发者联盟

数据库 标签 用户画像 MRS ClickHouse 列式存储

每个程序员都必须掌握的8种数据结构,2021Java开发面试解答

Java 程序员 后端

每个程序员都必须掌握的8种数据结构,springmvc源码流程总结

Java 程序员 后端

垃圾弹窗广告,如何清除互联网世界的牛皮癣

石头IT视角

ShardingSphere 分片利器 AutoTable:为用户带来「管家式」分片配置体验

SphereEx

数据库 开源

一期投资30亿!“中国—东盟星动云算力中心项目”将落地广西巴马

旺链科技

数字经济 产业区块链 一带一路

普通二本的辛酸Java面试之路,Java程序员架构之路该如何继续学习

Java 程序员 后端

来一份全面的面试宝典练练手,6年老Java面经总结

Java 程序员 后端

一朝爆发?解读知识图谱和图数据库的2018_数据库_甜梨_InfoQ精选文章