写点什么

Martin Van Ryswyk 谈 DataStax Enterprise Graph 数据库

  • 2016-09-29
  • 本文字数:3414 字

    阅读完需:约 11 分钟

DataStax 是一家为 NoSQL 数据库 Cassandra 提供商用支持的公司,也提供图数据库产品。它最近发布了一款名为 DataStax Graph 的新产品,包含适应性查询优化器、自动图数据分区、分布式查询执行引擎及专用于索引图的数据结构等重要功能。

DataStax Graph 数据库基于开源图数据库 Titan 研发,并使用了开源 Apache Tinkerpop 框架的 Gremlin 查询语言。DataStax 向 Apache 基金会对 Tinkerpop 进行了捐赠,现在已经成为社区中使用 Apache Tinkerpop 并对它做出贡献的供应商之一。

开源图数据库 Titan 的初创团队 Aurelius 在去年被 DataStax收购,现在他们已经构建出了新的图数据库功能。

Datastax Enterprise (DSE) Graph 是多模型平台的一部分,除了图之外还支持键值模型、表格模型和文档模型等。用户可以只使用一个供应商的产品就得到多种不同的数据模型,而不必在处理复合模型实现时为了使用多种不同数据模型而不得不求助于多个供应商。

DSE Graph 还包括许多附加功能,包括安全功能、内置分析功能、企业搜索功能、可视化管理监控和开发工具箱等。另外,DataStax Studio 还为图的可视化编辑及图查询等带来了全新的基于网页的解决方案。

InfoQ 就 Datastax 中的图数据模型支持等功能采访了 DataStax 技术部 EVP: Martin Van Ryswyk 先生。

Martin 谈到了这款新图数据库产品的功能,并与定制化的 NoSQL 图数据库进行了对比。DSE Graph 是一个分布式的图数据库平台,专为 Cassandra 设计,来为 DataStax 平台提供大规模图计算功能。

DSE Graph 原生与 DSE 检索 DSE 分析功能结合在一起,这样终端用户就可以在他们的应用程序中直接使用这些技术了。

他也谈到了一些图数据库的使用场景,以及在企业的数据管理中采用多模型数据库的好处。

InfoQ:能请您举些例子说明在数据管理的场景下 DataStax Enterprise Graph 数据库可以为大家提供哪些帮助吗?

Martin:

  • 360°管理用户数据:有个医疗机构构建了一套系统,用于存储病人数据及诊断记录、医护人员数据等。所有医院都可以访问这套病人的 360°数据系统。这些使用不同类型的数据汇总起来,最终会产生一个在病人、门诊、医院和医生之间的复杂图模型。
  • 库存管理:一家在线音乐与视频公司希望能基于现有的供应商信息来实现产品目录管理,并把这些信息与作者、乐队、演员、类型等结合起来,最终生成一张网格型的、复杂的、结构化的图。顾客可以实时检索这些图信息,并可以按照他们的查询需求即时返回结果。
  • IT 网络与设备管理:一家大型银行希望能监管它的计算机与服务器网络,以及各种配置。为了更好地理解这些机器之间是如何互联的,他们构建了一张图来优化部署、跟踪网络状态、发现安全与兼容性风险等。为了检测网络系统的健康状态,他们也从每一台机器上搜集了健康状态信息。
  • 安全与欺诈检测:一家金融机构打造了一张图,标记用户、机构、账户、信用卡和金融交易之间的关系,通过分析钱流经的路线、当地金融交易中的个人情况等,来检测一笔交易是否存在洗钱等犯罪活动的可能。
  • 推荐引擎:一家电子商务网站基于顾客信息以及过去的检索记录和购买行为等向顾客进行商品推荐。最重要的是,它基于用户当前浏览连接的最近检索行为来做出推荐,这些信息全都是存储在图中的。图分析技术被用于根据刚刚发生的交互行为来检索符合条件的其它商品。

InfoQ:您能举个例子,是把各种不同的,比如键值型、表格型、文档型、图型等所有数据都保存在一个数据库中的例子吗?

Martin:比如一个各种数据都从传感器上采集而来的物联网的例子。数据都存储在表格型时间序列模型中(在 DSE 的场景中很常见)。每条记录中都包含了传感器的 ID,以及在不同时刻采集上来的数据。同时 DSE Graph 也用来表现传感器、设备、工厂、业务线、产品、位置、供应商等组成的大型复杂层次架构。

传感器的 ID 可以从时间序列数据中得到,用于在图中的点表示这个传感器,可以用于检索,这样上下文就被确定下来了。如果某个传感器的读数异常,会有哪些具体影响?比如这是一架飞机上的 500 个传感器之一,这张图就可以用于表示出是三号引擎的燃油泵模块发生了故障,进而提示需要紧急降落。从图中可以知道这个发生故障的引擎是在哪一架飞机中,现在是在飞哪一次航班,由此我们可以找出按计划这架飞机接下来的飞行班次,从而预测哪些航班将被延迟。我们也可以知道有哪些机场会受到影响。装上飞机的每一件行李也都被扫描过并被加入图中,这样就可以知道哪些货物哪些行李也会被延迟。这是与客户有关的一个例子。事实上他们也会存储和食品服务、机组调度、行李处理、地勤设备等相关的信息,全都保存在同一个 DSE Graph 数据库中。各种不同的行业应用都会有它自己的时间序列数据、文档以及存储在图之外的其它数据。你会发现如果把所有这些数据全都保存在一个系统里,对于开发者和管理者来说是多么的简单。

InfoQ:对于要管理各种不同类型的非结构型数据(KV、表格、文档和图)的场景来说,使用多模型数据库是不是要比对每种数据都使用各自的专用 NoSQL 数据库更好?

Martin:这个问题我的用户最清楚答案了。几年前他们在每个方面都使用定制化的解决方案,因为他们的旧系统无法提供他们想要的扩展性和可用性。可现在他们关注的焦点转向了操作简单,因为他们更倾向于使用一个多模型系统来在一个系统中提供各方面的解决方案。在一个领域中运营和寻找有经验的人,要比同时涉及五个领域会容易得多。

InfoQ:对于开发者来说,该怎么判断什么时候使用一个多模型数据库,什么时候该使用 Spring Data 之类的抽象了多种数据存储访问逻辑的数据访问框架?

Martin:抽象数据访问逻辑意味着你对底层系统的工作一无所知。要利用好云应用的可扩展性和可用性,开发者不该放弃对 Spring 之类的抽象层的了解。通常这些抽象层只能对它们要抽象的各种系统的共性做一个简单抽象。事实上不同的模型大相径庭,很难把各种重要功能抽象出来。所以必须对要优化的模型有所了解才能实现好自己的系统。

InfoQ:在存储大型图数据集时,DataStax Enterprise Graph 是如何做在集群中多节点之间的分区数据复制的?

Martin:在 DataStax Enterprise 的内部 DSE Graph 是与 Cassandra 数据库紧密结合在一起的,所以可以充分利用 Cassandra 自身的分区和复制技术。另外,我们团队也开发了非常有效的查询路由、查询优化算法等,来在集群中快速高效地找到数据。

InfoQ:在 Cassandra 与 Spark 结合做数据分析的场景,新的图数据模型支持得怎么样?

Martin:我们针对图的 DSE 分析功能是基于 Spark 实现的。当用户执行的查询会检索图的一大部分(而不是简单地在某个节点就可以完成)时,我们会用底层的 Spark 来协助优化这样的查询。

InfoQ:DataStax Enterprise Graph 产品提供了哪些图数据可视化工具?

Martin:DataStax Studio 就是一个这样的开发工具,可以帮助用户执行 Gremlin 查询和将结果可视化。这个工具可用于帮助新开发者学习查询语言,也可以帮助有经验的开发者来测试程序的查询语句。另外我们也和许多家图数据可视化公司建立了合作伙伴关系,比如 Cambridge Intelligence Linkurious 等,他们的产品中已经加入了对 DSE Graph 的支持。

他也提到图的实现包含了服务器、可视化管理、用 DataStax OpsCenter 监控图数据库实现、用 DataStax Studio 进行可视化图开发、以及许多驱动来借助其他 DataStax Enterprise 模块(即 SparkSQL、Enterprise Search 等)处理图数据等。

读者可以自行查阅有关多模型数据库的DataStax 白皮书,了解云应用可以从多模型方法上获得怎样的帮助。

有一篇相关的新闻提到,一个不久前由TinkerPop 社区和DataStax 共同创建的名为 PlanetTinkerPop.org 的新网站已经为有兴趣的开发者提供了讨论和分享有关 TinkerPop Gremlin 信息的去处,这正是图数据库的查询语言。

关于受访者

Martin Van Ryswyk, 技术部执行副总裁,负责全世界范围内的软件工程、产品开发和对企业集成大数据平台的持续改进。他在小型初创公司和巨型企业中有超过 22 年的软件团队管理经验。期间,他在各种不同领域完成了产品的研发上线全流程,包括云计算、应用程序生命周期管理、数据库性能分析、存储管理和系统管理等。加入 DataStax 之前,他也曾在多种不同的高级技术岗位上任职,在 Tidal Software、Luminate、EMC 及上一家 Electric Cloud 等公司带领开发和为企业级技术产品制订市场推广策略。Martin 在加利福尼亚大学戴维斯分校获得了计算机专业学士学位。

阅读英文原文 Martin Van Ryswyk on DataStax Enterprise Graph Database

2016-09-29 18:277660
用户头像

发布了 152 篇内容, 共 79.8 次阅读, 收获喜欢 64 次。

关注

评论

发布
暂无评论
发现更多内容

重磅发布!阿里云全链路数据湖开发治理解决方案

阿里云大数据AI技术

大数据 阿里云 数据湖 数据分析

让GitHub炸锅的深入理解MySQL实战手册,竟出自阿里云“藏经阁”

冉然学Java

Java MySQL 高可用 阿里 构架

兆骑科创创新创业大赛,双创活动,赛事承办,三招三引

兆骑科创凤阁

谁在构建超云?

Kent Yao

超云

Linux C/C++后台开发高级架构师进阶指南-剑指腾讯T9

C++后台开发

后台开发 后端开发 linux开发 Linux服务器开发 C/C++开发

微信官方kbone,Web端同构的福音

Geek_99967b

小程序

开源一夏 | 在STM32L051上使用RT-Thread (一、无线温湿度传感器 之 新建项目)

矜辰所致

开源 RT-Thread 8月月更 STM32L051

企业实践|基于软件研运一体化DevOps平台的应用解析

云智慧AIOps社区

DevOps 自动化 敏捷开发 研发管理 代码托管

干货!XDR产品安全检测体系如何更好的落地?

极盾科技

网络安全 安全 信息安全 数据安全 xdr

CSDN 加入星策开源社区,携手推动企业智能化转型建设

星策开源社区

企业转型 智能化 CSDN

从0到1打造推荐系统工程实战

Jay Wu

推荐系统

重磅升级!TDengine3.0正式发布

TDengine

数据库 tdengine 时序数据库

XSKY星辰天合与观测云完成产品兼容性互认证 构建全业务链路的可观测性

观测云

参与openEuler社区不到1年,我成为了Maintainer……

openEuler

开源 成长 openEuler 开源社区 开发者说

秒验丨Android客户端集成指南

MobTech袤博科技

android Android Studio Gradle

直播系统源码——重视哪些功能的开发?

开源直播系统源码

软件开发 直播系统源码 直播功能

什么是知识库,为什么需要它?

Geek_da0866

7 天找个 Go 工作,Gopher 要学的条件语句,循环语句 ,第3篇

梦想橡皮擦

Python 爬虫 8月月更

HUAWEI内网最新发布了一份452页网络协议手册,GitHb百万收藏

小柴说Java

Java 网络协议 java程序员 TCP/IP Java工程师

【Java】:程序流程的控制

翼同学

Java 学习 编程语言 分享 8月月更

Alibaba最新发布的Spring Boot项目实战文档,Github标星78k

Java面试那些事儿

Java Java 面试 java程序员 Java工程师 spring-boot

对话张星亮,洞察本质,SaaS首先是一种商业模式

B Impact

软件测试100天上岸1-测试就是找茬游戏

和牛

测试 8月月更

洞见商业新机,云原生数据库GaussDB让企业决策更科学

华为云开发者联盟

数据库 后端 华为云

点赞破百万!字节算法大佬亲撰30W字数据算法笔记:GitHub标星93K

小柴说Java

数据结构 算法 算法题 算法与数据结构 算法面试题

容器化 | 一文搞定镜像构建方式选型

RadonDB

MySQL Docker Kubernetes 镜像 RadonDB

从GitHub火到了InfoQ!共计1658页的《Java岗面试核心MCA版》,拿走不谢

收到请回复

Java 程序员 金九银十 Java面试八股文 常见面试题

种草 Vue3 中几个好玩的插件和配置

江南一点雨

Java Vue

极盾·析策,XDR的正确打开方式

极盾科技

网络安全 安全 数据安全 xdr

兆骑科创国内外创新创业服务平台,创业大赛,企业落地孵化

兆骑科创凤阁

如何区分透明LED显示屏种类及应用领域

Dylan

LED显示屏 led显示屏厂家

Martin Van Ryswyk谈DataStax Enterprise Graph数据库_语言 & 开发_Srini Penchikala_InfoQ精选文章