【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

Gartner:未来 3-5 年,数据分析领域不可错过的技术趋势

  • 2019-08-02
  • 本文字数:3820 字

    阅读完需:约 13 分钟

Gartner:未来3-5年,数据分析领域不可错过的技术趋势

首届 Kylin Data Summit 上,全球知名 IT 研究咨询公司 Gartner 研究总监 Julian Sun 带来了一场关于数据分析领域相关趋势的演讲。


Julian Sun 介绍了十大趋势,我们整理了关键的几个趋势的内容。Gartner 发布的这十大趋势是最近 3-5 年企业可以应用的技术,而非十年以外的技术趋势。这些趋势之间的关系是相紧密相连,互相能够加强,而且都反映了三个主题:智能、新兴和拓展。


  • 智能

  • 企业用户都在面临着一些前所未有的变化,这些变化有的来自技术,有的来自于业务。传统数据方式可能没有办法在满足日益变化的数据分析形势,所以我们要借助机器学习帮助我们以更低门槛做更深度分析。

  • 新兴

  • 由于机器学习跟 AI 介入,数据可能不再自上而下放一层不变地展现在用户面前,更多根据用户的行为,通过元数据形成更复杂的一种数据框架以更新兴模式呈现到用户,是一个更动态的形式。

  • 拓展

  • 作为一个数据分析平台,更多需要考虑的是,这个平台是否有足够拓展性和延展性,可以将高阶分析普惠到所有人。

趋势 1:增强分析

增强分析是一种新兴数据分析方式,借助了机器学习跟 AI,让我们用户可以更低门槛去将这个数据分析呈现出来。



过去,大家认为数据分析是一个结果,我们看了一些仪表盘,看了一些报告觉得自己做数据分析了,其实不然,数据分析是一个创新过程,需要用户高度融合才可以产生新一轮结果。


增强分析可以在哪些环节帮助企业做数据分析呢?


  • 在准备数据阶段,增强分析可以为我们推荐一些业务刚好能用,刚刚够的数据源,而不是杂乱无章的数据源,同时可以帮助用户理解别的用户,自己同一组用户平时用的哪些数据。

  • 在业务发现的时候,增强分析又可以帮助我们做一些自动建模,模型管理、代码生成,从而使用户可以去用一些更高阶功能。

  • 在分享的时候可以通过增强分析给我们带来一些自动的业务发现,而不是让我在很多的仪表盘,很多报告当中一个个摸索。这也是为什么增强分析不仅是 Gartner 今年数据分析十大趋势,同时也是 Gartner 今年十大战略趋势,整体 IT 十大战略趋势之一。


为什么企业里面要用增强分析呢?


企业要分析的数据越来越复杂,探索的结构越来越复杂,业务用户希望通过自己自服务形式做分析,他们的问题没办法用普通数据方式传达的,所以用了增强分析,可以给他一种全新数据分析方式;同时增强分析还有一个很大作用,可以让我们做数据分析、学习的时间大大降低,可以真正普惠所有的业务用户,而不是让数据分析只停留在企业当中的少部分人。


同时大家可以想象一下我们现在做数据分析的模式,无非是一种可视化形式,拖拉拽形式做数据分析,很有可能会造成另外一种孤岛。我们常常说数据孤岛,做分析也一样,很可能产生分析孤岛,导致我们做的数据分析和业务脱节。这个时候用增强分析可以把这样的增强分析模式放到业务情景当中,提供最契合业务的真知。


举一个简单例子:美国有一家银行,他在没有使增强分析以前,他用了一个常规思路探索他们的客户,他们对客户做了一个画像,觉得自己作为一个银行可以把理财产品卖给年纪较大的用户,一些 55 岁-65 岁的用户,这种固有思维一直存在于他们的数据模型当中,久而久之他们就发现丢失了很多客户,于是他们用了增强分析模式并列了所有可能,最后发现真正愿意买他们理财产品的话,虽然他们钱不多,他们是 25-35 岁的用户,欢迎大家咨询 Gartner 报告,了解更多增强分析案例。

趋势 2:商用人工智能机器学习会取代开源占据市场主流

这个趋势可能与大家的普遍认知会有一些冲突。通过 Gartner 一些研究发现大多数的模型尽管有在被写,有被用,但只是创造出来而已,并没有放到运营和生产环境,也没有真正普惠到所有业务人员。



我们看到了像谷歌,亚马逊,微软,他们其实都在和很多的开源架构进行结合,我们预测到了 2022 年这些厂商会占到数据科学平台 20%的份额。同时,这些平台也一点点地演进自己,可以帮助我们提供更好一些生产环境特色,比如说数据的血缘分析、模型的复用、管理等,这些都是企业级用户非常擅长,而不是开源平台开发的初衷。


与此同时,这些平台还能给我们带来非常多益处,比如说我们要做我们的 AI 普惠性,作为开源平台实际上很少会想到这个工具,我们怎么样给到业务人员用,但是通过我们商用平台,可以搭建一个比较好环境,让我们的业务用户使用。同时我们可以看见,真正能够用到这些开源平台,用到这些算法,其实是需要很高技能要求,并不是所有人都可以实现这点,所以说这一点我们会发现,那些数据科学家其实是非常花钱,商用平台可以有一个更低的门槛让用户使用。


每个企业都在想怎么做数据化转型,这个过程是非常漫长的,需要 18 个月到 3 年时间才可能去实现,这个时候该怎么办呢?我们是不是看到开源市场不停有创新,不停有开源包出来呢,没错,但是通过一些开源包,通过一些开源结构完成一个长期的计划,实际是很难摸索的。我们通过跟商用平台合作可以明确知道这些商用平台未来的发布计划怎么样,这样能够更好地帮助我们结合企业的开发和发展。同时我们也会发现现在越来越多商用平台在把自己已经训练好的模型、算法直接放到平台销售,作为用户可以更简单地,直接购买这样的算法,还有模型,模型将会更成为一种商品的形式被大家使用。


未来算法将会很容易获得,不需要自己再去训练,但是比较困难的点是什么呢?是数据。我们怎样才能拥有一套可信的数据,去清洗它,训练它,使用它呢?这将涉及到下一个比较重要的趋势:数据管理相关的趋势。

趋势 3:Data Fabric

Data Fabric 一个比较大的框架,这个词我们姑且称之为数据编织。数据编织是一个概念,不是一个产品, 它并不是一个自上而下,以一个非常严苛固定的形式给到用户的数据结构。它更多是基于企业用户行为,自动建立起元数据之后一个新兴数据结构,它是动态变化的。



数据编织这个概念在 Gartner 的数据管理组经常被讨论,每当讨论到这个概念,就同时会提到数据虚拟化,以及如何去平衡?要么把数据从 A 移到 B ,B 移到 C,或者把数据全部连在一起,用虚拟化形式实现,这个平衡在企业里是非常难实现的,所以我们需要一个数据编织形式去管理这样的平衡,并不是所有的数据结构。


同时我们也会看到这样的一种新兴数据结构涵盖了很多东西,有数据湖,数据库,分布式的存储关系还有传统的数据库等。在这里元数据驱动了一切,我们希望花更多时间了解用户行为,搭建这样一个更灵活的数据编织。


从 usecase 角度看我们可以看见无论是数据仓库,分布式流程,多样式的数据来源都会以更新的形式、更符合业务诉求的形式,混合所有的数据存储的 porfolio,而不是单纯用单一技术,所以我会看见更多的厂商去做 datahub 的产品用来编织所有的数据。这样的形式也能够更方便符合现在不停变化的业务诉求。用更灵活的数据编织形式,我们建立一个统一的数据框架,管理所有数据。



那在这个背后支撑我们是什么呢?真正帮助我们做到一个非常好的管理应用是什么呢?这将涉及到下一个重点趋势,今天大会最大的主题:增强数据管理。

趋势 4:数据增强管理

“增强”这个词,我们希望把数据分析背后机器学习和人工智能的能力,它真正体现在帮助用户上,而不是取代用户。增强型数据管理涵盖数据管理方方面面,元数据管理,数据库管理,还有数据整合,数据质量都涵盖在内,它并不是一个单纯的数据管理范式。它可以有效地依赖我们企业里用户的行为,我们元数据的学习,去自动地生成行为数据。


过去,我们是非常被动做这样的数据管理的。当我们我们做数据质量管理的时候,把所有数据拉出来,看数据有哪些异同点和趋势,这个是非常消耗时间;同样做数据库管理的时候,我们要做优化数据库,建立索引,删除索引,建立一个分区,删除一个分区,这可能是用户为我们提出的需求,DBA 需要花费特别大量的时间。



由“增强”技术带来的减少的任务量是为了帮助我们而不是为了取代任何人,“增强”是为了使我们的工作更容易、更创新,更主动。


在进行数据运维时,很多时候是用到元数据的,但元数据的生成和学习是需要花时间的。应用到机器学习、AI 技术,我们希望最终能实现的是,看见数据,学习用户行为,创造元数据,整合数据管理工具 , 创建数据质量规则,最后在数据上建立 Scheme,让数据真正被业务用户使用,这将是一个完整的“增强型数据管理”希望实现的效果。



增强型数据管理涵盖面更广,用一个自动驾驶的例子来说,自动驾驶并不是为了学习这个车怎么开,更多是为了学习外部路况、环境,道面交通拥堵状况,这是我们初衷。跟增强型数据管理也一样,我们更希望从用户行为,从元数据当中获取真知,去创造元数据,帮助我们更好做数据管理,涵盖数据质量管理,主数据管理,数据集成,数据库管理,元数据管理方方面面。


今天围绕着“增强型分析”给大家带来了这样一些总结和分析,云是在这张图背后的,这些趋势紧密相连。这些趋势固然都很好,但是大家不要盲目地顺从某些趋势,作为企业管理者,更应该看到业务中痛点和欠缺的地方,查找整个系统中欠缺的部分,再运用这些技术。我们这些趋势是最近三五年发现的,可以帮助我们企业快速应用,但是这个顺序和重点依旧取决于你们企业自身业务重点。



演讲嘉宾


Julian Sun (孙鑫)先生在 Gartner 担任研究总监,负责商业智能及数据科学领域。他主要建议数据分析领导者架构,部署并演化现代化商业智能平台。其主要研究方向集中在可以帮助业务用户提升数据分析能力的新兴分析技术,由 AI 驱动的增强型分析,数据分析最大化业务价值的方法及简化企业员工使用数据科学流程的最佳实践。他同时对管理企业级分析平台的技术架构有所研究。


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-08-02 14:583818
用户头像

发布了 44 篇内容, 共 12.5 次阅读, 收获喜欢 81 次。

关注

评论

发布
暂无评论
发现更多内容

网络攻防学习笔记 Day116

穿过生命散发芬芳

网络安全 8月日更

python通过PyQt5实现登录界面

Python研究者

8月日更

如何认知新技术?区块链技术和应用

百度开发者中心

区块链 最佳实践 方法论

业界首个高性能交互式自动标注工具——EISeg正式开源!

百度大脑

人工智能 开源

你真的了解二叉树吗?(手撕算法篇)

有道技术团队

二叉树 网易有道

久等了!【Innovation 2021】网易应用创新开发者大赛正式开赛!

网易云信

开源 架构 开发者 网易 语言 & 开发

filecoin挖矿教程?filecoin挖矿收益如何?

区块链 分布式存储 IPFS filecoin挖矿 filecoin收益

每天学习 10 个实用Javascript代码片段(六)

devpoint

mathjs 加密函数 随机数 8月日更

HTTP接口测试基础【FunTester框架教程】

FunTester

自动化测试 教程 接口测试 测试框架 FunTester

01. 你身边的AI

数据与智能

人工智能

OceanBase 源码解读(三)分区的一生

OceanBase 数据库

数据库 分布式数据库 oceanbase OceanBase 开源 OceanBase 社区版

Baetyl推动边云融合 点亮智能物联网

百度大脑

人工智能 开源

从技术到服务,小鹅通成功的「底层逻辑」是什么?

ToB行业头条

【DPDK工程师手册】 —— 官方文档,最新视频,开源项目,论文,大厂内部ppt,知名工程师一览表

奔着腾讯去

Linux DPDK VPP

Python代码阅读(第18篇):变形词判断

Felix

Python 编程 Code Programing 阅读代码

Flutter 安卓 Platform 与 Dart 端消息通信方式 Channel 源码解析

工匠若水

flutter android 8月日更

Filecoin价格今日行情:filecoin价格还能怎么走?

区块链 分布式存储 IPFS filecoin价格 filecoin行情

新思科技软件组成分析解决方案获得Forrester Wave认可

InfoQ_434670063458

新斯科技 Forrester 软件组成分析

安卓工控主板通信接口有哪些呢?

双赞工控

安卓主板 工控主板

比特币矿池如何触底反弹?比特币矿企的未来出路在哪里?

CECBC

如何利用FL Studio编曲--入门级

懒得勤快

阿里大牛肝出的443页TCP/IP协议趣谈笔记,竟然在GitHub标星27k+

Java 编程 架构 面试 架构师

英特尔的碳中和版图

科技新消息

深入了解现代web浏览器(第一部分)

GKNick

区块链技术如何在涉诉信访中显身手

CECBC

强化学习中,Q-Learning与Sarsa的差别有多大?

行者AI

强化学习

微信业务架构图-作业

Geek_a772a7

为什么Kafka的数据不写了?

BUG侦探

DNS gopack Linux操作系统

neo4j 安装与基本操控

escray

学习 neo4j 8月日更

中国做ipfs公司排名?挖ipfs排名前三的公司是?ipfs矿机哪家最好?

中国做ipfs公司排名 ipfs矿机哪家最好 挖ipfs排名前三的公司是

仓储执行系统(WES)

申扬科技

WCS wms WES 仓储执行系统

Gartner:未来3-5年,数据分析领域不可错过的技术趋势_大数据_apachekylin_InfoQ精选文章