生成式AI领域的最新成果都在这里!抢 QCon 展区门票 了解详情
写点什么

明略数据 CTO:打造最易用的跨平台数据整合系统

  • 2015-03-10
  • 本文字数:3050 字

    阅读完需:约 10 分钟

明略数据是一家聚集了国内顶尖大数据人才的技术型大数据整体解决方案供应商,其从创立之初就秉承着将技术研究落地转化为科技生产力的基本理念,至今已经为银联、中央电视台、中国联通、国美在线、苏宁云商等公司部署了大数据处理平台,并带来了大量的业务创新机会。那么,明略数据是怎样做到这些的?明略数据在技术层面上又具有怎样的过人之处呢?为此,我们请到了明略数据CTO 冯是聪博士进行了采访,以便更加深入的了解明略数据的技术特点。

InfoQ:明略推出的大数据平台 BDP,对于这个平台我理解的就是很多传统企业比如说银行、政府,这种大型的机构当中,会有很多的分支部门,而部门之间的数据可能会由于种种的历史原因无法进行打通。这些数据,可能它的字段跟描述方式以及存储的格式也是不一样的。那么该如何把这些不同格式、不同表达方式的数据进行打通?是不是 BDP 这个产品可以实现这样的功能呢?

冯是聪:从技术上讲,对于一些企业、政府机构来说,一定会存在这样的情况,它有不同的数据来源的,不同的数据格式。那么这些数据必然面临着一个问题,就是如何把它们融合在一起,怎么实现数据之间的交互。

这一问题从技术的角度上来看确实具有一定挑战,但明略恰恰就善于解决这种问题。明略 BDP 中有两个核心模块——Data ONE 与 SQL ONE。Data ONE 采用的是 All-In-One 模式,无论数据来源是什么,无论是来源于关系型数据,还是来源于非关系型数据库,是 NoSQL,还是来源于 NewSQL,或是文件系统,这都没有关系。明略会以统一的方式将这些数据放到 BDP 平台内,通过 Data ONE 把所有数据统一管理起来。

那么接下来怎么实现数据之间的交互呢?这就需要用到另一个核心模块 SQL ONE 了。SQL ONE 是一个标准的 SQL 查询引擎。传统的新客户一般对于关系型数据库都非常熟悉,对 SQL 语句也会非常熟悉。那么当我们提供了 SQL ONE 这种语言之后,如果客户会操作传统的关系型数据库的话,就可以操作我们所有的文件系统、NoSQL, 甚至是 NewSQL。SQL ONE 可以智能地识别这些数据被物理地存放在 Data ONE 的哪个子系统中,确定数据是放在关系型数据库,还是放在非关系型数据库,或是放在文件系统中。客户只需要输入一个 SQL 语句,系统就能自动完成所有的事情,这也是 BDP 的一个特点之一。

InfoQ:从数据安全问题上来说,不同的行业,不同的企业,对数据安全的审计、审核的标准也不一样,尤其像一些涉及到国计民生的政府机构,他们的数据对安全的要求是非常高的。明略的产品是部署在客户的数据中心当中的,这样从物理上就可以规避一部分安全隐患。那么除此之外,明略还有在安全方面还有哪些不一样的地方?

冯是聪:从目前来讲,在大数据安全这一领域中很多技术都是不太成熟的。从大数据的特点来看,首先数据规模比较庞大,数据内容也比较复杂,再加上各种数据来源,各种数据格式,还要要求统一在大数据平台上进行管理,这些因素导致其对安全技术的要求变得非常高。

明略针对这些问题开发了自己的核心安全组件 Acre,在 Hadoop 平台上首次实现了行列级别的数据安全访问管理。它的核心思想是,可以把任何人操作该数据的历史、权限,包括他的授权认证,全部统一管理起来。

另外在隐私保护方面,明略实现了多种数据脱敏与加密算法,智能地实现了敏感数据的自动脱敏和保护。

InfoQ:您刚才也提到,明略还会在数据价值挖掘上有一些自己的动作,这就可能涉及到机器学习、深度学习,这些现在比较流行的新技术。那么,能否介绍一下明略在这方面的一些研究实践?

冯是聪:机器学习还有数据挖掘是大数据最核心的技术之一。明略的 3 大核心产品之一的 DataInsight 就是数据挖掘和机器学习的一个典型的平台。数据挖掘和机器学习在明略实施的几乎每一个项目中都得到了充分地应用,基本上每个项目都会进行一些预测、分类,这些都会用到机器学习里面去,另外像以前机器学习有进度学习、无进度学习、深度学习,这些也都会用到明略的项目里面去。

InfoQ:展望 2015 年,您认为哪些类型的企业会成为大数据领域的明星企业,或者说哪些企业会有高速的增长空间?能根据您的研究,分享一下您的观点吗?

冯是聪:因为大数据现在已经慢慢被大部分企业或者是政府接受了,它会在很多的领域都得到广泛的应用。从我个人看来,我觉得有两个领域是值得关注的,第一个是金融领域。现在的个人贷、余额宝等金融产品越来越多,因此为了更有效的进行反欺诈,征信系统将会利用更加密切的、彻底的应用大数据技术。

第二个领域是安全领域。安全永远都是一个话题,几乎每一家企业、每一个政府机构都会关心安全问题。数据安全技术没有得到突破的情况下,很多企业和政府是不会轻易的把自己的数据放在云端的。另外现在有的公安机关,甚至军方机构,都开始将大数据安全技术用于追捕或是反恐,这都说明了安全领域将更多的应用大数据技术。

InfoQ:明略的商业模式是很清晰。那么在未来,您更看好是像明略这样的面向企业的 On-Premise 的商业模式,还是同时还看好别的一些大数据创业公司的商业模式?

冯是聪:对于我自己来讲,我肯定是看好明略的商业模式的。一方面这种模式能够更好的基于客户的不同需求进行定制化开发,另一方面在安全上也更有保障。那些能够跟客户共同成长,能把客户当成伙伴,能够把客户的问题当成自己的问题的那种公司,才能够得到比较迅猛的发展。

大数据的核心在于从数据中挖掘价值。2015 年是大数据应用元年,企业将更加关注大数据技术的落地和应用。因此我比较看好那些能够根植于客户业务,能够帮助客户解决业务痛点,真正能够给客户带来价值的大数据公司。那些在不同细分领域,能够提供整体解决方案的大数据公司的前景将更好。

InfoQ:也就是不仅仅要做技术,而且还要熟悉、了解客户的业务模式,从而能更好提供有针对性的大数据服务。

冯是聪:明略始终认为大数据仅仅靠技术是不行的,它必须要能解决业务问题。厂商的数据科学家通常需要三方面的知识,一方面是需要懂得计算机知识,第二方面他要懂得数据挖掘知识,第三方面他要懂得数学,这是综合能力的体现。而只有当把客户的业务本质了解比较透彻,才能给客户带来实际的价值。

InfoQ:您能否谈谈有哪些技术会对大数据行业的未来产生巨大影响或者说带来巨大推动力?

冯是聪:我认为有四类技术比较重要。第一类技术是大数据安全技术,无论是金融业的反欺诈,还是警方的反恐与安保,都需要有大数据安全技术的帮助。

第二类技术是机器学习领域,从各种报道来看,无论是在云识别,还是图像识别,甚至视频的处理,已经基于机器学习以及深度学习而得到广泛的应用,我相信随着深度学习的发展,将会带来巨大的变革。

第三类技术是量子通讯,据我了解中国量子通讯的研究还是非常的具前沿的,基本上处于国际领先地位。像中国科大,他们现在在量子通讯上,能够在超过一百公里上午距离上进行传输。所以我相信随着量子通讯技术和量子计算机的发展,最后我们的通讯技术,还有计算机技术、语言都会发生翻天覆地的变化。

第四类是智能设备。我们身边生活中的几乎每一样设备,每一样东西实际上都可能会智能化。而一旦设备智能化了,这就需要想办法将数据收回来,当这些数据达到一定规模的时候,就一定会需要大数据技术来进行处理这些数据。我相信随着智能设备的发展,无论是中国还是外国,人们的生活方式以及工作方式都将得到改革。


感谢包研对本文的策划。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。欲了解更多明略资讯,欢迎访问大数据专区

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2015-03-10 09:458671

评论

发布
暂无评论
发现更多内容

多个私有云设施管理用什么云管理软件好?

行云管家

云计算 私有云 云管理 多有云

问题来了!拔掉网线几秒,再插回去,原本的 TCP 连接还存在吗?

Java全栈架构师

程序员 架构 面试 计算机网络 底层知识

STI即将登录Gate.io,我们有哪些期待?

小哈区块

VNC中文是什么意思?全称是什么?

行云管家

运维 服务器 vnc

大数据培训Hive如何控制map个数与性能调优参数

@零度

hive map 大数据开发

【高并发】一文秒懂Happens-Before原则

冰河

并发编程 多线程 协程 异步编程 精通高并发系列

记一次CPU持续增长的问题解决

BUG侦探

Python py-spy CPU增长问题

hash,bloomfilter,分布式一致性hash

Linux服务器开发

分布式 hash 后端开发 Linux服务器开发 C++后台开发

百度程序员开发避坑指南(3)

百度Geek说

前端

省掉80%配置时间,这款Mock神器免费又好用

Liam

前端 前端开发 Postman 前端教程 web前端开发

如何优雅的记录操作日志

flyhero

Java Spring Boot 后端 造轮子 4月月更

踩了个DNS解析的坑,但我还是没想通

捉虫大师

DNS 问题排查 4月月更

去中心化的 React Native 架构探索

Shopee技术团队

前端 去中心化 React Native

STI生态迎来新进展,登录Gate.io意味着什么?

西柚子

初创企业需要CRM系统的原因

低代码小观

初创公司 企业管理系统 CRM系统 客户关系管理系统 初创型企业

亚马逊云科技 loT 百亿连接力量

亚马逊云科技 (Amazon Web Services)

亚马逊云

48天打造你的专属 Twilio——浅谈运营商通信中台

网易云信

通信

腾讯二面:Linux操作系统里一个进程最多可以创建多少个线程?

Java全栈架构师

Linux 程序员 架构 面试 操作系统

【分享汇总】AIoT开源科技节暨OpenHarmony技术论坛(附链接)

OpenHarmony开发者

OpenHarmony AIoT开源科技节

公司产品手册的编写方法

小炮

企业 产品宣传手册

恒源云(Gpushare)_自动化训练小技巧白送给你,不要吗?

恒源云

OSS SSH hy-tmp

科创中国开源创新榜单发布,EMQX 获评“年度优秀开源产品”

EMQ映云科技

开源 物联网 IoT emq emqx

Sitemap的重要性

源字节1号

软件开发 网站优化

看板的作用是什么?任务看板如何跟进

阿里云云效

云计算 阿里云 持续交付 看板 项目协作

百度程序员开发避坑指南(移动端篇)

百度Geek说

移动端

详解离线数仓和实时数仓的区别

五分钟学大数据

4月月更

进阶篇|有了这招,用文本编辑器搞前端代码都能保证格式统一

Jianmu

运维 前端 自动化 工作流 格式化

从趋势到必选项,探讨企业数字化转型方式方法

华为云开发者联盟

数据 数字化 企业数字化转型 业务数字化

一张长图带你看懂物联网产业十数载“江湖风云”!

亚马逊云科技 (Amazon Web Services)

物联网

借品牌升级之际,谈一谈技术开发者为什么选择 InfoQ 写作社区

宇宙之一粟

4月月更 InfoQ写作社区2周年

用uniapp写一个内外循环的全选与反选,不会的赶紧围观

CRMEB

明略数据CTO:打造最易用的跨平台数据整合系统_安全_刘羽飞_InfoQ精选文章