阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

围绕 Apache Kylin 核心技术构建数据分析生态,这个大会有哪些新趋势值得关注?

  • 2019-07-13
  • 本文字数:3282 字

    阅读完需:约 11 分钟

围绕Apache Kylin核心技术构建数据分析生态,这个大会有哪些新趋势值得关注?

2019 年 7 月 12 日,国内首届以 Apache Kylin 为主题的大数据领域的前沿盛会 Kylin Data Summit 在上海落幕。Kylin 自 2015 年 11 月毕业成为 Apache 软件基金会 Top-Level 项目后,Apache Kylin 已经成为全球领先的开源大数据 OLAP 引擎,迄今在全球已超过 1000 家企业使用。2016 年,以 Apache Kylin 核心团队组建的 Kyligence 在中国成立,迄今为止为推动国内企业的智能数仓转型、数据分析领域做出了众多贡献。

这场大会,可以说是 Kyligence 对于国内市场理解后的一份成绩单。接下来的时间里,Kyligence 能否用其新发布的功能产品来引领国内这样一股数据为本、数据为先的数据分析潮流呢?

回归以数据为本的创新

当下,国内传统企业已经进入到了数字化转型的关键阶段,以金融、银行为代表的国内传统企业,正面临着业务渠道急需拓宽、用户体量飞速增长与传统技术架构之间的矛盾。


在企业数字化转型的关键阶段,如何回归到以数据为本的创新中来?面对经济、互联网发展的新阶段,大数据分析领域,又面临着怎样的十字路口?2019 年 7 月 12 日,国内大数据分析领域的前沿技术大会 Kylin Data Summit 落幕。在本次大会上,这些问题一一得到了揭晓。

让用户具有直接获取数据洞察的能力

构建完整数据分析能力体系

一个来自中国的开源技术,在全球范围内有这样的影响,让来自中国的技术力量在全球范围内都有持续不断的技术影响,这是 Apache Kylin 乃至 Kyligence 一直以来努力的方向。


Kylin 虽好,但想要用好,往往需要非常高的门槛,对没有技术基础的人员来说挑战非常大。现在,一些来自于 AI 的技术正在让应用场景的门槛越来越低。这也引申出了当下大数据领域的主要矛盾,即数据增长的数据及应用需求与极其短缺的产业工人之间的矛盾。


在这些矛盾中,Kyligence 只是所有行业数据分析中的缩影,在此次大会上,Kyligence CEO 韩卿打出了一套完整的数据分析组合拳。


本次发布的新一代产品 Kyligence Enterprise v4.0,进一步通过机器学习能力提供增强分析,大大简化了大数据分析的门槛,有效提升了数据分析的效率。其包括以下特性:


  1. 增强学习,自动建模:通过内置的无监督算法推荐并优化数据模型,可以轻松适应业务需求的变化

  2. 省心运维,化繁为简:系统可以通过自动化运维来完成日常运维工作,并且可以无缝对接各类主流 BI(商务智能)产品

  3. 灵活架构,轻松扩展:从 Hadoop 过渡到 Spark,基于 Apache Spark 的查询和任务引擎,针对于计算场景的深度优化,平军查询性能 10 倍于 Spark SQL 查询引擎。


这样一组数据可以看出新一代 Kyligence Enterprise 的性能:30 分钟自动建模,95%推荐成功率,降低 60%的数据加载时间,3 千亿的数据规模每天只需 300 美元,1 个 Cube 拥有 1200+纬度,不到 1 小时加载 80 亿数据等等。


同时,其它发布的两款产品为:Kyligence Insight1.0——业务自助式数据服务,核心是集中在语义层,语义层是做数据治理和数据中台的基石;Kyligence Cloud3.0——一站式云端大数据分析,相较于上一代产品,做到分钟级别的测试能力。


从开源 Apache Kylin 开始,到增强分析版大数据分析平台,到 BI 到云端,再到现在构建了完整的数据生态分析能力,对于企业而言,数据分析正在越来越简单。通过围绕 Apache Kylin 的核心技术,构建这样一个数据分析生态,将会推动工程师、分析师以及管理人员更好地、更轻松地应用数据分析来为企业决策做决定。


同时,Kyligence 的产品更新不只限于功能上的更新,更重要的是沉淀方法论,通过已沉淀的数据分析方法论,来释放行业大数据的生产力。

为企业屏蔽底层技术障碍

前段时间 Hadoop 领域三大商业公司在运营商纷纷出现状况,大家也纷纷对 Hadoop 的前景感到担忧,并且 Apache Kylin 与 Hadoop 的关系紧密,未来在技术上应该何去何从,带着这些问题,Kyligence CEO 韩卿接受了 InfoQ 记者的采访。


韩卿提到,Hadoop 作为一款已经被社区验证过的超大规模数据处理的企业级通用平台,不会因为其中商业公司的运营情况而遭到技术层面的否定。同时,对于 Apache Kylin 来说,新一代 Kyligence Enterprise 选择将数据分析能力转移到 Spark 上,只是为了给企业用户更多的选择,并不是因为 Hadoop 最近的风波;另一方面,企业应用 Kyligence 来做大数据分析,Kyligence 要做的就是为这些企业用户屏蔽掉因为底层技术变更所带来的技术问题,这也是开源项目与商业项目的最大不同之一,降低数据分析使用门槛,让更多用户能够具备数据分析的能力。

数据本源筑造银行转型创新根源

同样,提起大数据,怎能少得了用户体量以及数据分析需求量最大的银行呢?在当天 Keynote 主论坛上,建信金融科技架构团队技术总监朱志就银行大数据的过去、现在与未来的演变趋势进行了深度阐述。


一方面,技术发展驱动着企业级大数据平台的逻辑演进。另一方面,在银行业,技术的发展也代表着银行业当下的窘境。当前银行在技术上过分依赖外包,因此无论现在市面上是 Hadoop、Spark 还是 Flink 占据主流,外包还是只会写 SQL。


银行业的未来在于线上,现在银行业务逐步线上化,这也就代表未来很多数据会集中在金融科技公司手上。银行虽然逐渐将业务重心集中在线上,但是其根本的存、贷、汇的逻辑并没有改变。银行业未来一定是虚拟化的,未来三年,银行大数据平台有以下三点机会:


  • 机会一,数据访问 API 化(打通内部之间不同的技术);

  • 机会二,降维打击 SQL(操作不同种类的语言技术替代 SQL);

  • 机会三,应用 AI 技术治理数据。


数据正在使今天的不可能变成明天的可能,就像比尔盖茨曾经说过的一句话:我们现在需要银行业,但不再需要银行。


此外韩卿也提到,虽然是从 Apache Kylin 中孵化出来的商业项目,但是 Kyligence 并没有忘记社区,只是扮演了更加重要的指导者角色。一方面内部有专门的团队在积极和社区合作完善 Apache Kylin 的开源;另一方面,Kyligence 只是更多关注在降低使用门槛以及提升应用效率层面,Kyligence 依然在影响和驱动社区的发展。

Augmented Analytics,未来数据分析的趋势

万事开头难,任何一项新技术以及趋势被放到大家眼前的时候,都是这项技术包括趋势最受到考验的时候。本次大会主论坛中,来自于 Gartner 的研究总监 Julian Sun,集中于『智能、新兴、扩展』三部分,现场分享了数据与分析领域的顶尖趋势。


这里为大家总结了 Julian Sun 现场讲解的几个趋势点,这些预测的趋势,主要集中于未来 3-5 的范围,帮助企业更快进行技术的实验和实施,这些预测趋势分别为:


  • 2020 年,增强分析将成为企业新采购分析及商业智能、数据科学和机器学习平台和嵌入式分析的主要驱动因素。

  • 2020 年,50%的分析查询将通过搜索、自然语言处理或语音生成,或自动生成。

  • 2022 年,商用人工智能、机器学习会取代开源占据市场主流,其中为用户提供的人工智能而机器学习技术的新解决方案中,75%将通过收费的商用平台(而非免费的开源平台)构建。

  • 2022 年,由于机器学习和自动化服务的加入,数据管理领域的人工任务量将减少 45%,技术领域需求减少 20%,减少的这些任务量是在帮助而不是取代,让工作更简单更灵活,


关于未来数据分析的趋势及前景,Julian Sun 解释道:对增强分析(Augmented Analytics)和增强数据管理(Augmented Data Management)来说,通过借助机器学习和 AI 能力,其目的是让数据分析真正普惠所有用户,而不是让数据分析只停留在企业中的少部分人


最后,Julian Sun 提到,开源技术门槛过高,商用平台可以用更低的门槛让更多企业和使用者来使用,模型将会成为一种商品的形式,而不需要去训练。增强数据管理,不是为了取代工作,而是为了让工作更创新,让决策者更应该主动看到业务的痛点和欠缺的部分,员工数据素养的提高,才能将数据价值应用到极致。

大数据的增强分析时代,已然到来

从 Gartner 的分析报告中就可以看出,未来数据分析领域将会成长为企业业务发展的重要决策手段。对大数据的定义正在重新发生,在当下这种需要快速决策的时代,大数据分析将承担更多的业务责任,数据分析也已不再是财务报表上锦上添花的内容。数据分析的未来,就像 Kyligence CEO 韩卿在大会当天引用《经济学人》文章的一句话一样:未来世界最具价值的不是石油,而是数据。


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-07-13 10:2715642
用户头像
佘磊 策划编辑

发布了 50 篇内容, 共 20.2 次阅读, 收获喜欢 76 次。

关注

评论

发布
暂无评论
发现更多内容

企业转型难?火山引擎数智平台提供数智升级新路径

字节跳动数据平台

大数据 数据中台 12 月 PK 榜

RocketMQ Schema——让消息成为流动的结构化数据

Apache RocketMQ

RocketMQ

海量监控数据处理如何做,看华为云SRE案例分享

华为云开发者联盟

数据库 后端 华为云 12 月 PK 榜

手写现代前端框架diff算法-前端面试进阶

helloworld1024fd

JavaScript

前端二面必会手写面试题汇总

helloworld1024fd

JavaScript

玩转云端 | 数据管理深似海,运维如何变“路人”?

天翼云开发者社区

大数据 数据仓库 数据存储

架构实战 - 模块4作业

mm

redis sentinel #架构实战营

【面经分享,附答案】字节系统架构,一面,后端开发

小小怪下士

Java 程序员 面试

天翼云Serverless边缘容器,为云上创新开启加速度

天翼云开发者社区

云计算 边缘计算 边缘容器

这波无感升级有点秀——天翼云QEMU组件热升级方案来了

天翼云开发者社区

云计算 云主机 虚拟化

【经验总结】HDI与普通PCB的4点主要区别

华秋PCB

工艺 PCB PCB设计

论文解读丨【CVPR 2022】不使用人工标注提升文字识别器性能

华为云开发者联盟

人工智能 华为云 文字识别 12 月 PK 榜

HMS Core 3D流体仿真技术,打造移动端PC级流体动效

最新动态

学习掌握哪些前端技术才能找到好工作?

小谷哥

参加大数据培训可以找到工作吗

小谷哥

百度APP Android包体积优化实践(四)Dex注解优化

百度Geek说

Java android 前端 12 月 PK 榜

选择从零开发一款小游戏如何能实现变现

Onegun

小游戏 小游戏开发 H5小游戏

架构实战营 模块3-1

西山薄凉

「架构实战营」

在北京选择哪家大数据培训机构

小谷哥

培训班出来前端程序员好找吗?

小谷哥

社招前端一面经典手写面试题(边面边更)

helloworld1024fd

JavaScript

ZBC成功上线PancakeSwap的糖浆池,并有望在不久上线Binance

西柚子

盘点那些日赚万金的爆款小游戏

FinFish

小游戏 小程序游戏 微信小游戏 爆款小游戏

Clickhouse表引擎探究-ReplacingMergeTree

京东科技开发者

Clickhouse 数据分片 数据验证 存储数据 MergeTree

迁移速度与计算性能兼得!天翼云DirtyLimit技术大显身手

天翼云开发者社区

虚拟机 迁移 弹性计算

Java程序员培训机构怎么选

小谷哥

手写JavaScript常见5种设计模式

helloworld1024fd

JavaScript

社招前端一面必会react面试题集锦

beifeng1996

React

Vue的computed和watch的区别是什么?

bb_xiaxia1998

Vue

8个Spring事务失效的场景,你碰到过几种?

JAVA旭阳

Java spring

如何优化大场景实时渲染?HMS Core 3D Engine这么做

最新动态

围绕Apache Kylin核心技术构建数据分析生态,这个大会有哪些新趋势值得关注?_文化 & 方法_佘磊_InfoQ精选文章