写点什么

围绕 Apache Kylin 核心技术构建数据分析生态,这个大会有哪些新趋势值得关注?

  • 2019 年 7 月 13 日
  • 本文字数:3282 字

    阅读完需:约 11 分钟

围绕Apache Kylin核心技术构建数据分析生态,这个大会有哪些新趋势值得关注?

2019 年 7 月 12 日,国内首届以 Apache Kylin 为主题的大数据领域的前沿盛会 Kylin Data Summit 在上海落幕。Kylin 自 2015 年 11 月毕业成为 Apache 软件基金会 Top-Level 项目后,Apache Kylin 已经成为全球领先的开源大数据 OLAP 引擎,迄今在全球已超过 1000 家企业使用。2016 年,以 Apache Kylin 核心团队组建的 Kyligence 在中国成立,迄今为止为推动国内企业的智能数仓转型、数据分析领域做出了众多贡献。

这场大会,可以说是 Kyligence 对于国内市场理解后的一份成绩单。接下来的时间里,Kyligence 能否用其新发布的功能产品来引领国内这样一股数据为本、数据为先的数据分析潮流呢?


回归以数据为本的创新

当下,国内传统企业已经进入到了数字化转型的关键阶段,以金融、银行为代表的国内传统企业,正面临着业务渠道急需拓宽、用户体量飞速增长与传统技术架构之间的矛盾。


在企业数字化转型的关键阶段,如何回归到以数据为本的创新中来?面对经济、互联网发展的新阶段,大数据分析领域,又面临着怎样的十字路口?2019 年 7 月 12 日,国内大数据分析领域的前沿技术大会 Kylin Data Summit 落幕。在本次大会上,这些问题一一得到了揭晓。


让用户具有直接获取数据洞察的能力

构建完整数据分析能力体系

一个来自中国的开源技术,在全球范围内有这样的影响,让来自中国的技术力量在全球范围内都有持续不断的技术影响,这是 Apache Kylin 乃至 Kyligence 一直以来努力的方向。


Kylin 虽好,但想要用好,往往需要非常高的门槛,对没有技术基础的人员来说挑战非常大。现在,一些来自于 AI 的技术正在让应用场景的门槛越来越低。这也引申出了当下大数据领域的主要矛盾,即数据增长的数据及应用需求与极其短缺的产业工人之间的矛盾。


在这些矛盾中,Kyligence 只是所有行业数据分析中的缩影,在此次大会上,Kyligence CEO 韩卿打出了一套完整的数据分析组合拳。


本次发布的新一代产品 Kyligence Enterprise v4.0,进一步通过机器学习能力提供增强分析,大大简化了大数据分析的门槛,有效提升了数据分析的效率。其包括以下特性:


  1. 增强学习,自动建模:通过内置的无监督算法推荐并优化数据模型,可以轻松适应业务需求的变化

  2. 省心运维,化繁为简:系统可以通过自动化运维来完成日常运维工作,并且可以无缝对接各类主流 BI(商务智能)产品

  3. 灵活架构,轻松扩展:从 Hadoop 过渡到 Spark,基于 Apache Spark 的查询和任务引擎,针对于计算场景的深度优化,平军查询性能 10 倍于 Spark SQL 查询引擎。


这样一组数据可以看出新一代 Kyligence Enterprise 的性能:30 分钟自动建模,95%推荐成功率,降低 60%的数据加载时间,3 千亿的数据规模每天只需 300 美元,1 个 Cube 拥有 1200+纬度,不到 1 小时加载 80 亿数据等等。


同时,其它发布的两款产品为:Kyligence Insight1.0——业务自助式数据服务,核心是集中在语义层,语义层是做数据治理和数据中台的基石;Kyligence Cloud3.0——一站式云端大数据分析,相较于上一代产品,做到分钟级别的测试能力。


从开源 Apache Kylin 开始,到增强分析版大数据分析平台,到 BI 到云端,再到现在构建了完整的数据生态分析能力,对于企业而言,数据分析正在越来越简单。通过围绕 Apache Kylin 的核心技术,构建这样一个数据分析生态,将会推动工程师、分析师以及管理人员更好地、更轻松地应用数据分析来为企业决策做决定。


同时,Kyligence 的产品更新不只限于功能上的更新,更重要的是沉淀方法论,通过已沉淀的数据分析方法论,来释放行业大数据的生产力。


为企业屏蔽底层技术障碍

前段时间 Hadoop 领域三大商业公司在运营商纷纷出现状况,大家也纷纷对 Hadoop 的前景感到担忧,并且 Apache Kylin 与 Hadoop 的关系紧密,未来在技术上应该何去何从,带着这些问题,Kyligence CEO 韩卿接受了 InfoQ 记者的采访。


韩卿提到,Hadoop 作为一款已经被社区验证过的超大规模数据处理的企业级通用平台,不会因为其中商业公司的运营情况而遭到技术层面的否定。同时,对于 Apache Kylin 来说,新一代 Kyligence Enterprise 选择将数据分析能力转移到 Spark 上,只是为了给企业用户更多的选择,并不是因为 Hadoop 最近的风波;另一方面,企业应用 Kyligence 来做大数据分析,Kyligence 要做的就是为这些企业用户屏蔽掉因为底层技术变更所带来的技术问题,这也是开源项目与商业项目的最大不同之一,降低数据分析使用门槛,让更多用户能够具备数据分析的能力。


数据本源筑造银行转型创新根源

同样,提起大数据,怎能少得了用户体量以及数据分析需求量最大的银行呢?在当天 Keynote 主论坛上,建信金融科技架构团队技术总监朱志就银行大数据的过去、现在与未来的演变趋势进行了深度阐述。


一方面,技术发展驱动着企业级大数据平台的逻辑演进。另一方面,在银行业,技术的发展也代表着银行业当下的窘境。当前银行在技术上过分依赖外包,因此无论现在市面上是 Hadoop、Spark 还是 Flink 占据主流,外包还是只会写 SQL。


银行业的未来在于线上,现在银行业务逐步线上化,这也就代表未来很多数据会集中在金融科技公司手上。银行虽然逐渐将业务重心集中在线上,但是其根本的存、贷、汇的逻辑并没有改变。银行业未来一定是虚拟化的,未来三年,银行大数据平台有以下三点机会:


  • 机会一,数据访问 API 化(打通内部之间不同的技术);

  • 机会二,降维打击 SQL(操作不同种类的语言技术替代 SQL);

  • 机会三,应用 AI 技术治理数据。


数据正在使今天的不可能变成明天的可能,就像比尔盖茨曾经说过的一句话:我们现在需要银行业,但不再需要银行。


此外韩卿也提到,虽然是从 Apache Kylin 中孵化出来的商业项目,但是 Kyligence 并没有忘记社区,只是扮演了更加重要的指导者角色。一方面内部有专门的团队在积极和社区合作完善 Apache Kylin 的开源;另一方面,Kyligence 只是更多关注在降低使用门槛以及提升应用效率层面,Kyligence 依然在影响和驱动社区的发展。


Augmented Analytics,未来数据分析的趋势

万事开头难,任何一项新技术以及趋势被放到大家眼前的时候,都是这项技术包括趋势最受到考验的时候。本次大会主论坛中,来自于 Gartner 的研究总监 Julian Sun,集中于『智能、新兴、扩展』三部分,现场分享了数据与分析领域的顶尖趋势。


这里为大家总结了 Julian Sun 现场讲解的几个趋势点,这些预测的趋势,主要集中于未来 3-5 的范围,帮助企业更快进行技术的实验和实施,这些预测趋势分别为:


  • 2020 年,增强分析将成为企业新采购分析及商业智能、数据科学和机器学习平台和嵌入式分析的主要驱动因素。

  • 2020 年,50%的分析查询将通过搜索、自然语言处理或语音生成,或自动生成。

  • 2022 年,商用人工智能、机器学习会取代开源占据市场主流,其中为用户提供的人工智能而机器学习技术的新解决方案中,75%将通过收费的商用平台(而非免费的开源平台)构建。

  • 2022 年,由于机器学习和自动化服务的加入,数据管理领域的人工任务量将减少 45%,技术领域需求减少 20%,减少的这些任务量是在帮助而不是取代,让工作更简单更灵活,


关于未来数据分析的趋势及前景,Julian Sun 解释道:对增强分析(Augmented Analytics)和增强数据管理(Augmented Data Management)来说,通过借助机器学习和 AI 能力,其目的是让数据分析真正普惠所有用户,而不是让数据分析只停留在企业中的少部分人


最后,Julian Sun 提到,开源技术门槛过高,商用平台可以用更低的门槛让更多企业和使用者来使用,模型将会成为一种商品的形式,而不需要去训练。增强数据管理,不是为了取代工作,而是为了让工作更创新,让决策者更应该主动看到业务的痛点和欠缺的部分,员工数据素养的提高,才能将数据价值应用到极致。


大数据的增强分析时代,已然到来

从 Gartner 的分析报告中就可以看出,未来数据分析领域将会成长为企业业务发展的重要决策手段。对大数据的定义正在重新发生,在当下这种需要快速决策的时代,大数据分析将承担更多的业务责任,数据分析也已不再是财务报表上锦上添花的内容。数据分析的未来,就像 Kyligence CEO 韩卿在大会当天引用《经济学人》文章的一句话一样:未来世界最具价值的不是石油,而是数据。


2019 年 7 月 13 日 10:2713408
用户头像
佘磊 策划编辑

发布了 50 篇内容, 共 17.5 次阅读, 收获喜欢 73 次。

关注

评论

发布
暂无评论
发现更多内容

Python API 类型系统的设计与演变

李宇飞

API

关于Vue权限路由思考

程序员海军

Vue 大前端 vue-router 权限认证 按钮权限

记上周双休日的加班

sadhu

加班

史上最全教程:idea将Java项目打包Jar包,并生成exe可执行文件

小胖说java

Java jar包转exe可执行文件 exe4j

书单|互联网企业面试案头书之数据分析师篇

博文视点Broadview

Centos7下Docker安装&配置&镜像加速

happlyfox

学习 ,docker 3月日更

科普NA公链(Nirvana):NAC公链采用基于NIO的Netty,实现链上应用百万级TPS并发​

区块链第一资讯

工作四年,分享50个让你代码更好的小建议

比伯

Java 程序员 架构 程序人生 计算机

Firebase 命令行工具

HoneyMoose

局域网服务器访问外网方案

程序员与厨子

Linux 网络 路由表

我还不懂什么是分布式事务

你呀不牛

Java MySQL spring 分布式 事务

Kafka、RabbitMQ、RocketMQ 之间的区别是什么 ?

AI乔治

Java kafka 架构 消息队列

万物皆可拆

小匚

来,在图片上画个矩形吧,取经之旅第 14 天

梦想橡皮擦

3月日更

推进智能变革,HPE让零售业的数字化梦想照进现实

Lily

图片的黑魔法——GitHub 热点速览 v.21.13

HelloGitHub

GitHub 开源

如何激励员工?—— 马斯洛需求理论

石云升

激励 28天写作 职场经验 管理经验 3月日更

Java + opencv 实现图片人脸检测

张音乐

Java AI OpenCV ffmpeg 人脸识别

Redis - 主从模式

insight

redis 3月日更

算法:求两个单向链表的最早公共交点

程序员架构进阶

算法 链表 28天写作 3月日更 算法解析

无需编程,通过配置零代码生成CRUD RESTful API

crudapi

RESTful 低代码 API crud crudapi

“数字足迹”怕暴露,数字人民币如何守护你我隐私安全?

CECBC

数字货币

双非怎么了

我是程序员小贱

3月日更

PS 进行隐藏图制作

空城机

PhotoShop ps 视觉处理 视觉 隐藏图

AA

郑伟

标签

【Axure9百例】47.CSDN的列表样式

zhuchuanming

原型设计 Axure 交互原型

go + ffmpeg + goav 实现拉流解码器

张音乐

音视频 ffmpeg Go 语言 goav

从新手到专家:如何设计一套亿级消息量的分布式IM系统

JackJiang

架构设计 即时通讯 IM

缓存不一致、缓存雪崩、缓存击穿、缓存穿透

escray

redis 学习 极客时间 3月日更 Redis 核心技术与实战

MySQL主从原理,基于快速学习一门技术的3种方式

博文视点Broadview

Java + opencv实现视频人脸检测

张音乐

OpenCV 人脸识别 视频

ShadowRealm 与微前端沙箱

ShadowRealm 与微前端沙箱

围绕Apache Kylin核心技术构建数据分析生态,这个大会有哪些新趋势值得关注?-InfoQ