最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

明略数据 CTO:打造最易用的跨平台数据整合系统

  • 2015-03-10
  • 本文字数:3050 字

    阅读完需:约 10 分钟

明略数据是一家聚集了国内顶尖大数据人才的技术型大数据整体解决方案供应商,其从创立之初就秉承着将技术研究落地转化为科技生产力的基本理念,至今已经为银联、中央电视台、中国联通、国美在线、苏宁云商等公司部署了大数据处理平台,并带来了大量的业务创新机会。那么,明略数据是怎样做到这些的?明略数据在技术层面上又具有怎样的过人之处呢?为此,我们请到了明略数据CTO 冯是聪博士进行了采访,以便更加深入的了解明略数据的技术特点。

InfoQ:明略推出的大数据平台 BDP,对于这个平台我理解的就是很多传统企业比如说银行、政府,这种大型的机构当中,会有很多的分支部门,而部门之间的数据可能会由于种种的历史原因无法进行打通。这些数据,可能它的字段跟描述方式以及存储的格式也是不一样的。那么该如何把这些不同格式、不同表达方式的数据进行打通?是不是 BDP 这个产品可以实现这样的功能呢?

冯是聪:从技术上讲,对于一些企业、政府机构来说,一定会存在这样的情况,它有不同的数据来源的,不同的数据格式。那么这些数据必然面临着一个问题,就是如何把它们融合在一起,怎么实现数据之间的交互。

这一问题从技术的角度上来看确实具有一定挑战,但明略恰恰就善于解决这种问题。明略 BDP 中有两个核心模块——Data ONE 与 SQL ONE。Data ONE 采用的是 All-In-One 模式,无论数据来源是什么,无论是来源于关系型数据,还是来源于非关系型数据库,是 NoSQL,还是来源于 NewSQL,或是文件系统,这都没有关系。明略会以统一的方式将这些数据放到 BDP 平台内,通过 Data ONE 把所有数据统一管理起来。

那么接下来怎么实现数据之间的交互呢?这就需要用到另一个核心模块 SQL ONE 了。SQL ONE 是一个标准的 SQL 查询引擎。传统的新客户一般对于关系型数据库都非常熟悉,对 SQL 语句也会非常熟悉。那么当我们提供了 SQL ONE 这种语言之后,如果客户会操作传统的关系型数据库的话,就可以操作我们所有的文件系统、NoSQL, 甚至是 NewSQL。SQL ONE 可以智能地识别这些数据被物理地存放在 Data ONE 的哪个子系统中,确定数据是放在关系型数据库,还是放在非关系型数据库,或是放在文件系统中。客户只需要输入一个 SQL 语句,系统就能自动完成所有的事情,这也是 BDP 的一个特点之一。

InfoQ:从数据安全问题上来说,不同的行业,不同的企业,对数据安全的审计、审核的标准也不一样,尤其像一些涉及到国计民生的政府机构,他们的数据对安全的要求是非常高的。明略的产品是部署在客户的数据中心当中的,这样从物理上就可以规避一部分安全隐患。那么除此之外,明略还有在安全方面还有哪些不一样的地方?

冯是聪:从目前来讲,在大数据安全这一领域中很多技术都是不太成熟的。从大数据的特点来看,首先数据规模比较庞大,数据内容也比较复杂,再加上各种数据来源,各种数据格式,还要要求统一在大数据平台上进行管理,这些因素导致其对安全技术的要求变得非常高。

明略针对这些问题开发了自己的核心安全组件 Acre,在 Hadoop 平台上首次实现了行列级别的数据安全访问管理。它的核心思想是,可以把任何人操作该数据的历史、权限,包括他的授权认证,全部统一管理起来。

另外在隐私保护方面,明略实现了多种数据脱敏与加密算法,智能地实现了敏感数据的自动脱敏和保护。

InfoQ:您刚才也提到,明略还会在数据价值挖掘上有一些自己的动作,这就可能涉及到机器学习、深度学习,这些现在比较流行的新技术。那么,能否介绍一下明略在这方面的一些研究实践?

冯是聪:机器学习还有数据挖掘是大数据最核心的技术之一。明略的 3 大核心产品之一的 DataInsight 就是数据挖掘和机器学习的一个典型的平台。数据挖掘和机器学习在明略实施的几乎每一个项目中都得到了充分地应用,基本上每个项目都会进行一些预测、分类,这些都会用到机器学习里面去,另外像以前机器学习有进度学习、无进度学习、深度学习,这些也都会用到明略的项目里面去。

InfoQ:展望 2015 年,您认为哪些类型的企业会成为大数据领域的明星企业,或者说哪些企业会有高速的增长空间?能根据您的研究,分享一下您的观点吗?

冯是聪:因为大数据现在已经慢慢被大部分企业或者是政府接受了,它会在很多的领域都得到广泛的应用。从我个人看来,我觉得有两个领域是值得关注的,第一个是金融领域。现在的个人贷、余额宝等金融产品越来越多,因此为了更有效的进行反欺诈,征信系统将会利用更加密切的、彻底的应用大数据技术。

第二个领域是安全领域。安全永远都是一个话题,几乎每一家企业、每一个政府机构都会关心安全问题。数据安全技术没有得到突破的情况下,很多企业和政府是不会轻易的把自己的数据放在云端的。另外现在有的公安机关,甚至军方机构,都开始将大数据安全技术用于追捕或是反恐,这都说明了安全领域将更多的应用大数据技术。

InfoQ:明略的商业模式是很清晰。那么在未来,您更看好是像明略这样的面向企业的 On-Premise 的商业模式,还是同时还看好别的一些大数据创业公司的商业模式?

冯是聪:对于我自己来讲,我肯定是看好明略的商业模式的。一方面这种模式能够更好的基于客户的不同需求进行定制化开发,另一方面在安全上也更有保障。那些能够跟客户共同成长,能把客户当成伙伴,能够把客户的问题当成自己的问题的那种公司,才能够得到比较迅猛的发展。

大数据的核心在于从数据中挖掘价值。2015 年是大数据应用元年,企业将更加关注大数据技术的落地和应用。因此我比较看好那些能够根植于客户业务,能够帮助客户解决业务痛点,真正能够给客户带来价值的大数据公司。那些在不同细分领域,能够提供整体解决方案的大数据公司的前景将更好。

InfoQ:也就是不仅仅要做技术,而且还要熟悉、了解客户的业务模式,从而能更好提供有针对性的大数据服务。

冯是聪:明略始终认为大数据仅仅靠技术是不行的,它必须要能解决业务问题。厂商的数据科学家通常需要三方面的知识,一方面是需要懂得计算机知识,第二方面他要懂得数据挖掘知识,第三方面他要懂得数学,这是综合能力的体现。而只有当把客户的业务本质了解比较透彻,才能给客户带来实际的价值。

InfoQ:您能否谈谈有哪些技术会对大数据行业的未来产生巨大影响或者说带来巨大推动力?

冯是聪:我认为有四类技术比较重要。第一类技术是大数据安全技术,无论是金融业的反欺诈,还是警方的反恐与安保,都需要有大数据安全技术的帮助。

第二类技术是机器学习领域,从各种报道来看,无论是在云识别,还是图像识别,甚至视频的处理,已经基于机器学习以及深度学习而得到广泛的应用,我相信随着深度学习的发展,将会带来巨大的变革。

第三类技术是量子通讯,据我了解中国量子通讯的研究还是非常的具前沿的,基本上处于国际领先地位。像中国科大,他们现在在量子通讯上,能够在超过一百公里上午距离上进行传输。所以我相信随着量子通讯技术和量子计算机的发展,最后我们的通讯技术,还有计算机技术、语言都会发生翻天覆地的变化。

第四类是智能设备。我们身边生活中的几乎每一样设备,每一样东西实际上都可能会智能化。而一旦设备智能化了,这就需要想办法将数据收回来,当这些数据达到一定规模的时候,就一定会需要大数据技术来进行处理这些数据。我相信随着智能设备的发展,无论是中国还是外国,人们的生活方式以及工作方式都将得到改革。


感谢包研对本文的策划。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。欲了解更多明略资讯,欢迎访问大数据专区

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2015-03-10 09:458675

评论

发布
暂无评论
发现更多内容

最初设计时就会避开钽电容,这是为什么呢?三大理由告诉你原因

元器件秋姐

元器件 电容 钽电容

令人头秃的js隐式转换面试题,你能做对吗

loveX001

JavaScript

有爱相伴,宠爱有家,皮皮App发起关爱流浪动物主题公益活动

联营汇聚

开学季,5门优选好课助你在新学期狂飙!

博文视点Broadview

在统信UOS上二进制安装GreatSQL

GreatSQL

MySQL UOS 统信 greatsql greatsql社区

vivo版本发布平台:带宽智能调控优化实践-平台产品系列03

vivo互联网技术

版本发布 CDN带宽

「读源码」为什么注册路由时没有传入上下文,在接口方法中却能取到?

王中阳Go

Go golang 高效工作 学习方法 程序员

文盘Rust -- 本地库引发的依赖冲突

京东科技开发者

后端 Clickhouse 本地计算 rust语言 企业号 2 月 PK 榜

基于飞桨PaddleClas完成半导体晶圆图谱缺陷种类识别

飞桨PaddlePaddle

paddle 开源 飞桨

Led透明显示屏的发展超乎你想象

Dylan

LED 显示器 LED显示屏

面试官:说说React-SSR的原理

beifeng1996

React

搞懂Druid之连接创建和销毁

小小怪下士

Java 程序员 后端 Druid

擅用瓴羊Quick BI报表分析工具,数据分析事半功倍

夏日星河

ChatGPT风口下的技术“狂飙”,天翼云荣登ZeroCLUE榜首

天翼云开发者社区

BeyondCampus-护航高校网络安全

权说安全

网络安全 零信任

腾讯前端必会面试题(必备)

loveX001

JavaScript

【FAQ】集成分析服务的常见问题及解决方案

HMS Core

HMS Core

构建云边端一体的分布式云架构,软硬结合驱动边缘计算创新场景

百度开发者中心

云原生 边缘计算 #百度智能云#

Prompt Learning: ChatGPT也在用的NLP新范式

Baihai IDP

人工智能 自然语言处理 nlp ChatGPT 企业号 2 月 PK 榜

瓴羊Quick BI为企业决策者提供可视化分析服务

小偏执o

疑似45亿条递信息泄露,“三类主体”如何应对?

极盾科技

数据安全

假如面试官问你Babel的原理该怎么回答

loveX001

JavaScript

Percona 8.0.30中show engine innodb status导致coredump排查及分析

GreatSQL

MySQL MySQL 高可用 :MySQL 数据库 greatsql greatsql社区

面试官:你是怎样进行react组件代码复用的

beifeng1996

React

吃透阿里2023版Java性能优化小册后,我让公司系统性能提升了200%

程序员小毕

数据库 程序员 JVM 架构师 Java性能优化

ModStartBlog v6.7.0 后台管理优化,页面宽度调整

ModStart

关于微服务架构的思考

HummerCloud

微服务 云原生

面试了20+前端大厂,整理出的面试题

loveX001

JavaScript

Java 集合中的排序算法浅析

京东科技开发者

jdk 后端 Java、 排序算法 企业号 2 月 PK 榜

百度前端必会react面试题总结

beifeng1996

React

瓴羊Quick BI即席分析工具:创设数据分析捷径

巷子

明略数据CTO:打造最易用的跨平台数据整合系统_安全_刘羽飞_InfoQ精选文章