【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

云上企业如何加速创新?亚马逊云科技发布数智融合新趋势

  • 2022-05-12
  • 本文字数:2641 字

    阅读完需:约 9 分钟

云上企业如何加速创新?亚马逊云科技发布数智融合新趋势

日前,以“云领数智融合,重塑创新引领”为主题的亚马逊云科技大数据与机器学习媒体沟通会在北京举行。亚马逊云科技大中华区产品部总经理陈晓建、亚马逊云科技大中华区产品部技术专家团队总监王晓野、亚马逊云科技大中华区产品部机器学习产品高级经理张洋接受了 InfoQ 在内的少数几家媒体采访。

 

随着信息技术日益发展,近几年,全球数据量激增。统计显示,2020 年,全球数据量达到了 60ZB,其中中国数据量增速迅猛。预计 2025 年中国数据量将增至 48.6ZB,占全球数据量的 27.8%。

 

毋庸置疑,数据早已成为企业最重要的资产,但数据价值却未得到充分利用。福布斯调研报告数据显示,如果能够成为一个数据驱动型公司,那么公司收入会增加 20%,成本会减少 30%。

 

亚马逊云科技认为,企业要想重塑数据洞察,一定要做到数智融合,将数据(大数据技术)和智能(机器学习技术)进行融合和统一。从而更加高效地围绕数据构建和实施项目,使得数据在两者之间无缝流转,成员快速具备相关能力,推动公司企业数字化转型迈向新的高度。

当大数据遇上机器学习

 

IT 时代产生的数据呈指数级增长,而数据也被应用到了更多的领域中。与过去相比,数据的规模日益庞大,应用场景日益复杂,这些都给大数据计算提出了更高的挑战。而企业对大数据服务也提出了更高的要求。越来越多的企业希望拥有按小时,甚至按分钟级实时的大数据服务。

 

与此同时,随着 AI 技术不断发展,AI 技术的应用深度和广度也在不断加深。根据 IDC 报告显示,到 2023 年,AI 系统支出将达到 979 亿美元(约合 6557 亿元人民币),比 2019 年增加 2.5 倍。另外根据 Gartner 的分析,到 2024 年,75% 的企业将把机器学习技术真正用于生产,为业务所赋能。

 

“从这两点来看,大数据和机器学习技术会对企业业务产生越来越大的作用,越来越多的企业希望能够通过融合大数据和机器学习能力来提供业务产出,以充分发挥数据的价值。”陈晓建说道。

 

可以看到的企业需求趋势是,在组织架构层面,企业将原来分散在各个部门的机器学习实践进行整合,并与大数据项目进行统一协调和资源配置;在人员能力层面,企业要求和安排原有传统的大数据实践者掌握机器学习技术,应用到大数据具体项目或承接新的机器学习相关的项目需求,要求机器学习从业者也要掌握大数据处理能力,更好、更便捷地完成模型所需的数据准备和加工;在项目实施层面,仅依靠传统的大数据技术是无法全方位提供充足的数据见解,仍需要机器学习的模型能力补充,越来越多的数据项目会融合大数据和机器学习两者的能力;在工具支撑层面,企业需要面向大数据技术和机器学习构建统一的开发平台和技术基础,可能是对已有大数据平台进行改造增加机器学习相关场景和能力,或是完全推倒重新构建一个面向两者的通用的平台。

 

陈晓建认为,数智融合需要解决三个问题:

 

第一,数据和机器学习分而治之,数据及技术孤岛制约敏捷迭代。数据的丰富性、准确性和质量,直接决定了机器学习最终的效果。但企业通常分开独立建设大数据能力和机器学习能力,多个部门数据孤岛式呈现。

 

第二,数据处理能力不足。在生产制造企业,机器学习帮助客户对产品售后维修需求进行预测,由被动响应变为主动规划。但由于不具备足够的大数据处理能力,模型开发成功后 ,不能够有效收集处理海量的运营数据,致使预测不准确,无法达到预期业务目标。

 

第三,数据分析人员参与度低。现实情况经常是,模型在实验环节效果良好,但实际使用中却不尽人意,实验环境只是对真实环境的简单模拟,生产环境要复杂得多。

实现数智融合需要构建三大核心能力

 

“企业在云中要打造统一的数据基础底座,实现大数据和机器学习的’双剑合璧’,为企业发展提供创新引擎。这是我认为实现数智融合最有效的一条途径。”

 

陈晓建表示,实现数智有效融合的途径一是建立统一融合的治理底座,如数据质量、数据权限、数据开发、数据工作流、可视化;二是要让大数据和机器学习之间高效充分的双向互动,互为支撑,互为因果,形成正向循环。

 

而企业要想实现数智融合需要构建三大核心能力:

 

  • 统一数据共享。让数据资产化,打破数据孤岛。

  • 统一权限管控。因为只有具备完善的权限控制能力,放心的让数据在不同的业务系统之间流转。

  • 统一开发及流程编排。融合端到端的大数据和机器学习任务,提升整体的开发效率。

 

亚马逊云科技的经验之一就是构建云中统一的数据治理底座,打破数据及技能孤岛。企业需要构建统一的数据治理底座,实现大数据和机器学习的数据共享,数据权限的统一管控,以及两者统一的开发和流程编排。云中统一的数据治理底座不仅能提升大数据和机器学习的高效融合,还能减少大数据和机器学习重复构建的工作,并且显著降低成本。

 

“在 2021 re:Invent 期间,我们的 Amazon SageMaker Studio 进行了能力升级,通过 Amazon SageMaker Studio 统一的开发界面,现在可以实现数据科学家或是数据工程师用统一的界面实现机器学习、算法模型开发之外的能力,还可以通过 Amazon Athena 访 问不同数据源的数据,也可以通过 Amazon EMR 实现大数据处理,也可以通过同样的界面,通过代码调用 Amazon Redshift,访问数据仓库里的数据。”王晓野说道。

 

此外,还需要助力机器学习由实验转为实践,为机器学习提供生产级别的数据处理能力。机器学习项目成功的关键,就是对复杂的数据进行加工和准备。

 

最后,让数据分析智能化,赋能业务人员探索创新。比较常见的方式是通过一些工具降低探索机器学习建模难度,比如亚马逊深度集成机器学习 Amazon SageMaker 模型预测能力的 Amazon QuickSight 、在分析结果中添加基于模型预测的 Amazon Athena ML,都可以帮助开发者使用熟悉的技术,甚至通过自然语言来使用机器学习。

 

“大数据技术与机器学习技术,其实有着非常不同的发展路径。但是有一部分的企业已经走在了数据驱动转型的前沿,借助云计算实现了它们二者有机的融合。”王晓野说道。

人工智能将无处不在

 

人工智能从出现到发展至今不过十年。不过根据 IDC 2022 年中国人工智能及自动化市场的十大预测,人工智能将无处不在。

 

IDC 中国助理研究总监卢言霞表示,到 2022 年,60% 的中国 1000 强公司将在所有关键业务的横向职能中扩大使用 AI/ML,如营销、法务、人力资源、采购和供应链、物流等。由于机器学习更加依赖算力、算法、数据,人工智能的快速发展拉动了对 AI 基础数据服务的需求,预计在未来几年内将稳步增长。

 

而随着 AI 技术进一步发展,大数据与 AI 结合的优势也将进一步显现。可以预见的是,云上企业要想加速创新,或将必然加入这场数智融合之旅中。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-05-12 11:021847

评论

发布
暂无评论
发现更多内容

新思科技发现开源安全、许可证合规性和维护问题依然很普遍

InfoQ_434670063458

新思科技 OSSRA 开源安全

anyRTC 六周年 打造全网最低音视频价格

anyRTC开发者

音视频 WebRTC RTC sdk

“云演唱会”也有仪式感!能检票、可转赠,爱奇艺“云票”如何重构线上购票逻辑

爱奇艺技术产品团队

怎么进大厂?166位Java工程师的大厂面试经验分享

北游学Java

Java 面试 大厂

堪称完美!淘宝内部百亿级Java高并发系统架构设计PDF手册分享

Java架构追梦

Java 架构 高并发 淘宝网 亿级架构设计

MapReduce排序以及序列化

五分钟学大数据

大数据 hadoop mapreduce

Linux C/C++ 学习路线总结!助我拿下腾讯offer

赖猫

后台开发 C/C++ Linux服务器开发

揭秘 Amazon Go 无人商店是如何炼成的!

亚马逊云科技 (Amazon Web Services)

限流与Guava RateLimiter原理解析

千珏

Java 微服务 限流算法 Guava 令牌桶

官宣:恭喜 ChaosBlade 项目进入 CNCF Sandbox

阿里巴巴云原生

容器 云原生 k8s 监控 Go 语言

Amazon Route 53 Resolver 落地中国区,轻松玩转私有域名互访不是梦!| 新服务上线

亚马逊云科技 (Amazon Web Services)

嵌入式程序调用函数的内部过程和机制

不脱发的程序猿

单片机 嵌入式程序 嵌入式设计

2021年5月国产数据库排行榜:“华为高斯模式”取得成功,阿里OPA持续攀升

墨天轮

数据库 dba tdsql TiDB Gauss DB

为啥你写的代码总是这么复杂?

华为云开发者联盟

软件 代码 代码注释 bug 复杂度

论好文章和烂文章

阿里巴巴云原生

程序员 开发者 云原生 写作技巧 成长与思考

STM32电源框图解析(VDD、VSS、VDDA、VSSA、VREF+、VREF-、VBAT等的区别)

不脱发的程序猿

嵌入式 stm32 单片机 电源框图解析

云图说|不要小看不起眼的日志,“小日志,大作用”

华为云开发者联盟

运维 日志 云日志服务 安全监控审计

源码解析之Seata项目中的分布式ID生成算法

Coder的技术之路

分布式 分布式ID

如何高效地存储与检索大规模的图谱数据?

华为云开发者联盟

存储 知识图谱 检索 图结构 表结构

再次荣获最受观众喜爱奖

Serverless Devs

阿里云 云原生 cncf #Serverless

我崩溃了!BTAJ面试有关散列(哈希)表的面试题详解,电子版已问世

欢喜学安卓

android 程序员 面试 移动开发

iMazing比iTunes好用在哪些地方

懒得勤快

智慧党建三维云展厅可视化

一只数据鲸鱼

数据可视化 智慧党建 三维可视化

数据采集之js自定义采集

大数据技术指南

大数据

Spring Cloud Bus 消息总线介绍

阿里巴巴云原生

Java 微服务 云原生 中间件 数据格式

HuskyLens人工智能摄像头

不脱发的程序猿

人工智能 智能硬件 AIOT HuskyLens 人工智能摄像头

如何做一场高质量的分享

阿里巴巴云原生

深度学习 开发者 云原生 分享

Nginx负载均衡配置误区

运维研习社

nginx 负载均衡 5月日更

Amazon Glue 版本 2.0 将作业启动时间缩短了 10 倍,现已全面开放!

亚马逊云科技 (Amazon Web Services)

CampusBulider(模模搭)学习笔记5:创建自定义建筑

ThingJS数字孪生引擎

大前端 可视化 3D 3D可视化 数字孪生

更灵活的边缘云原生运维:OpenYurt 单元化部署新增 Patch 特性

阿里巴巴云原生

容器 运维 云原生 中间件 边缘计算

云上企业如何加速创新?亚马逊云科技发布数智融合新趋势_AI&大模型_凌敏_InfoQ精选文章