AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

云原生时代下的数智融合:让 AI 重新定义数据治理,让数据高效激发 AI 创新

  • 2022-08-18
    北京
  • 本文字数:9676 字

    阅读完需:约 32 分钟

云原生时代下的数智融合:让 AI 重新定义数据治理,让数据高效激发 AI 创新

在 VUCA 时代,市场变化加速,企业需要更加敏捷而准确的数智化决策,但众多企业面临着数据的困境,数据能力现状与需求之间存在差距,我们知道数据要素的价值,但却很难获得。而另一方面,数据分析和 AI 分析技术蓬勃发展,呈现出融合的趋势,让分析的广度和深度不断增强,让使用的门槛不断降低,越来越多的开发者开始关注数智融合的发展。

 

8 月 16 日,华为云大咖说数智融合专场邀请到了艾瑞研究院总经理徐樊磊、华为云数据智能创新 Lab 高级技术专家季振峰、T3 出行大数据平台研发负责人杨华、顺丰科技大数据总监蔡适择四位来自不同领域的数据专家坐镇,以不同的视角解读“数智融合”这个话题。

 

本期华为云大咖说线上分享会的主题为“数智融合,云上创新”,主持人为 InfoQ 主编赵钰莹,共分为专家分享与圆桌共话两大环节,以下为直播内容精编整理。

 

《2022 年中国数智融合发展洞察》研报解读

艾瑞研究院总经理徐樊磊

 

如今不管是技术层面还是应用层面,大数据智能化趋势都非常明显,不断加速着不同产业之间的融合创新,艾瑞咨询一直在关注数据+智能的整体发展,今年发布了一份《中国数智融合发展洞察》的报告,以下为艾瑞研究院的总经理徐樊磊的分享:

 

首先,聊下数智融合的现状。提到数智融合,必然要聊下多元异构问题。一方面,我们要正视多元异构,在未来,它或许“更多元、更异构”。另一方面,多元异构意味着它必然是多元且分布式的状态,但使用时需要统一调度,所以这时就需要一个平台来屏蔽掉底层的差异,链接各个数据源,这样数据就能从“汇聚才可被用”到了“链接即可被用”。为了屏蔽底层的差异,像微服务等技术解决方案已经很成熟。所以,接下来数智融合技术的演进方向其实就是降低编写应用程序的难度,让技术更加贴近业务场景。

 

从目前整个 IT 环境来看,IT 架构的明显特点是“去过程化”。自然状态下,数据往往都是“越来越乱”的,呈现出一个熵增的过程。如果想更好地使用数据,那需要采取一系列措施,比如抽象解耦、水平扩展的基础设施、高性能计算于网络、自动化与智能化等。

 

其次,再来聊下数智融合技术的痛点及解决方案:

 

1、数据量、存储成本和计算效率的“不可能三角”:存储成本、数据量、计算效率三者无法同时达到最优状态。想要平衡三者关系,那就需要“软硬结合”。现阶段的解决方案就是以内存为中心的计算,从一定程度上防止数据迁移,同时成本也可以达到可控状态。

 

2、多元异构使数仓、数据湖、AI 数据形成了新数据孤岛:数据出现多元异构后,我们肯定不能让数据散着,否则成本会越来越高,数据的不一致性也会越来越强。理想的解决方案是从底层调用数据,现阶段的解决方案大多是在应用中多加了一层(即三层结构),拿 Master 举例,它会有统一的元数据、目录、数据权限、事务的一致性多版本的管理。

 

3、当下开源产品和方案很多,但在实际实施过程中人力成本和运维成本都很高:企业在使用开源产品过程中,遇见这个问题很正常,所以大家不用那么排斥商业商品,一味使用开源产品的话,也许后期投入成本远远高于购买一个成熟的商业产品。大家在购买商业产品时的顾虑可能在于担心它会不会倒闭或者未来会涨价、被深度捆绑后“难以转身”,所以在选择相应的商业产品时,要考虑厂商规模是否足够大,是否能够和开源完美结合,这样基本可以避免上述所有问题。

 

4、数据产生的长链条使数据准备工作变复杂:对于数据治理人员来说,这个阶段会占用数智化过程中绝大部分时间。数据治理这件事如果完全靠人工去做,成本会很高,这也是当前企业要数字化转型的初衷。当下的解决方案是,低代码+人工智能,让数据治理这件事变简单,无论是技术人员还是业务人员都能够去处理这些数据。

 

最后想说的是,像华为云这种厂商便能够解决以上痛点,在未来对于数字融合产品的搭建和输出上都有比较大的技术优势和服务优势。在软硬融合、行业实践和开源生态方面,华为一直做的都很不错,是一个不错的选择。

 

《数据治理的生产线,构建高效、安全的一站式数智融合治理平台》

华为云数据智能创新 Lab 高级技术专家季振峰

 

关于数智融合,华为云也有自己的观察和思考,华为云数据智能创新 Lab 高级技术专家季振峰解读了华为云数智融合的解决方案:

 

当前企业想要进行数字化转型,主要面临三个挑战,即复杂的数据治理导致成就业务难、系统众多架构复杂和技术门槛高。为了解决这些难题、更好地释放数据价值,华为云面向数据治理提出了数据治理生产线 DataArts,像生产线一样把海量的、复杂的、无序的数据生产为高质量的、清洁的、透明的数据能源,输送给业务并帮助业务驱决策。

 

DataArts 采用 AI 辅助数据治理,目的是实现全生命周期的自动化和智能化,当前已经支持实时的数据入湖和数据分析、自动的数据处理以及自动数据标准化和质量稽核、全面的安全链路管控能力保护用户隐私数据和合规审计,并且与华为的 AI 开发生产线 ModelArts 进行了贯通。

 


DataArts 提供丰富的 OLTP 和 OLAP 数据服务,应对多样化的数据场景。同时,提供集中化的数据治理和管理,包括:

 

1、从 DGC(数据湖治理中心)升级到 DataArts Studio,涵盖了从数据集成到数据开发、数据质量、数据服务的全流程,既支持大数据开发人员可以高效的进行数据的开发和生产,也支持不懂数据开发和数据分析的业务人员去处理和加工各种数据。

 

2、集成了丰富的工具让企业不同系统不同类型的数据能方便快捷得入湖,使低代码的编排可以支持企业的异构数据源,通过很方便的编排方式就能将各种数据接入进来,同时在接入的过程中可以支持隐私数据的发现,以及选择是加密存储还是加密传输,同时也提供了端到端的链路监控能力。

 

3、即将上市的 DataArts LakeFormation,可以支持湖内的数据湖、数据仓库、大数据及 AI 元数据统一管理,并且支持湖内元数据事务性的更新和修改、半结化数据的元数据自动提取,让数据不用在多个湖、仓、AI 分析系统中来回移动,而导致的数据不一致问题,基于一份数据进行分析,让决策结果唯一可信。

 

4、融合低代码和无代码的开发模式,支持低代码和无代码开发数据,准备数据加工,处理好数据作业,极大的提高了开发的效率。将数据开发从之前的天级提升到了小时级,甚至是分钟级,用户无需懂 SQL、Python,甚至 Java 代码,只需要在我们的低代码开发界面上通过拖拽的方式选择各种数据处理算子,就可以数据的加工和处理。

 

5、企业级数据目录,帮助企业实现数据的资产化管理。企业的数据通常是异构的,零散的,在物理上可能分布在不同的地域,甚至可能在不同的云上面。从物理上很难把这些数据存储到一起,而从逻辑上又需要一个统一的数据目录,来对这些数据进行统一的管理,因此 DataArts 面向多云、多 Region,多级数据湖提供了统一的数据目录,可以自动的采集、分析和识别、存储企业里头各种数据的元数据信息,并且将基础元数据和业务元数据、管理元数据进行自动关联、补全,实现数据的资产化管理,让数据能够找得到、好理解、易使用,支持更好的查找数据,支持以自然语言搜索的方式去搜索到资产,可以自动的给出搜索建议和自然推荐,并且实现搜索的智能纠错,根据用户的搜索意图做好资产的排序。

 

6、全链路的数据安全保护能力,让企业可以统一的配置企业的数据安全策略,达到数据的加工全链路都能受到数据安全管控的目的,从数据集成、数据架构、数据开发、数据目录到数据服务我们都提供了很全面的数据安全管控能力,这些能力包括数据访问权限管理、敏感数据发现、隐私数据保护、数据风险管理,以及数据的合规审计。

 

7、面向生态开放,引入了 BI、主数据、数据建模、数据标签等数据管理行业 TOP 伙伴的 SaaS 产品,并与数据治理生产线 DataArts 云原生服务集成,为客户提供一致性的体验。

 

《“围湖而建”的智慧出行——T3 出行的 Lakehouse 架构与实践》

T3 出行大数据平台研发负责人杨华

 

T3 出行作为华为云数智融合解决方案的使用方,在数智融合领域也有自己的一些思考,T3 出行大数据平台研发负责人杨华进行了分享:

 

T3 出行的 Lakehouse 采用了存算分离的架构,借助华为云 FusionInsight 整体托管能力,构建在华为云的 OBS 对象存储之上,在计算层,从 T3 出行的业务场景出发,面向 BI 和 AI 两个方向构建了自己的计算体系。



解析 BI 类框架。T3 出行 Lakehouse 的对象存储和计算层中间引入了 Apache  Hudi 框架,起到一个“承上启下”的作用,目前像华为云等国内主流云厂商都在围绕它封装一些开箱即用的能力。该框架的核心特性是能在 Hadoop 及云存储上提供 upserts、deletes、incrementals 能力,它能够支持 ACID 的事务语义层,支持做增量处理、增量计算,支持智能存储的布局管理以及 time  travel 的查询。

 

Apache Hudi 生态很丰富(见下图),左侧 Data Sources 能够支持多种多样的数据源,能够将数据摄取到 Hudi 表的数据存储中来。在右侧最底层还能够支持主流的这种开源的数据存储,像 HDFS 以及各大云厂商的兼容 HDFS 的对象存储,目前它现在已经能够支持主流的开源大数据的存储查询和计算引擎。



T3 出行应用 BI 类框架的三个典型实践:

 

第一个实践便是“入湖”,即将业务的关键数据(尤其指变更数据)摄取到数据湖中。T3 出行采用 Spark 来将业务的存量数据摄取到 Hudi 表中,而处理主要来自业务的关系型数据库的变更数据,T3 出行借助的是基于 Binlog CDC 的能力,先将 Binlog 采集到 Kafka,然后通过 Flink 做一层轻粒度的汇聚。因为 T3 出行会有一些分布分表的数据,需要将它汇总成一个逻辑上的大表,通过 Spark 或者 Flink 再将数据摄取到数据湖中。在杨华看来,“经常发生变更的数据需要持续增量地、以低延迟的方式同步到数据湖中。”



第二个实践是 T3 出行在湖仓中的 ETL,此处的数据加工大概分了几个层次。首先存储层还是一些 Hudi 表,计算的主要引擎是 Spark SQL,使用了 Apache Kyuubi 框架来解决多租户隔离问题。

 


第三个实践是关于 T3 出行数据 OLAP 以及 AD Hoc 的能力,拥有不同的 Client 以及不同的业务场景,除了能够对不同的场景做租户隔离以外,还能对相同的租户里面不同的用户去 share 上下文,除了 Spark  SQL 外,在这里引擎还引入了像 Presto 等其他相关的一些引擎,全部都托管在 Kyuubi 的 Gateway 上。



解析 AI 类框架。资源管理方面,T3 出行借助 Kuberentes 面向于不同的训练场景,抽象出了 CPU 集群、GPU 集群,T3 出行还借助微众开源的 Prophecis 的机器学习平台来做资源及机器学习环境的管理,内置了一些开箱即用的算法库及相关环境。最上层业务应用了像 Jupyter 这种集成开发环境进行业务开发。

 

T3 出行基于机器学习的 Lakehouse 的实践,构建了一体化的数据管理体系,T3 出行利用数据管理体系对特征数据进行版本化管理。其中,特征工程阶段是开发过程中的关键阶段,T3 出行采用了 Feature Store 体系做 MLOps。



《DataOps 驱动数据中台云原生》

顺丰科技大数据总监蔡适择

 

关于数据融合,不同的企业、不同的开发者的理解均有差异,对于顺丰科技来说,他们将视野聚焦在了 DataOps 与云原生数据中台的关系上,顺丰科技大数据总监蔡适择对此进行了分享:

 

在顺丰科技数据中台的全景图中,最核心的还是可持续发展的数据治理体系。

 


为了支撑顺丰科技的数据开发用户,让他们能够更加便利简单的进行数据开发,顺丰科技在 DataOps 方面做了许多努力,从需求出发,到建模、接入、开发、管理、服务以及整个数据上架的全环节,相当于做到了端到端的打通、全链路的重新梳理以及自动化串接过程实现。



当 DataOps 整个环节自助化后,顺丰科技发现因为有很多多人协作、运维紧急保障、高峰应对这样的诉求,所以这就要求中台具有极致的弹性能力来保障资源。此外,在数据安全方面,还要保障用户测试时线上数据不被污染,灰度上线要保证数据能支持多版本、可恢复的操作,整个数据共享也要有行级、列级全局管控等等。

 

然而对于顺丰科技 DataOps 来说,并不能要求用户去了解这些底盘,包括测试环境、生态环境、研发环境,所以我们赋予了它云原生能力,这也是 DataOps 对数据中台底盘的基础诉求。

 

顺丰科技为此就构建了弹性、融合、实时的全体系链条(见下图)。



如上图所示,左边部分是统一 SQL 和统一元数据,相当于把数据分布到不同的地方、不同机房、不同引擎的情况对用户透明,建一套逻辑统一的数据湖,同时构建统一 SQL,达到让用户跨机房跨引擎使用的时候无感,跟使用普通 SQL 没有任何区别。

 

为构建资源弹性能力,顺丰科技建立了以存算分离、分布式缓存、容器化为核心的大数据架构,在存储层面进行了对 HDFS、S3 的融合,相当于一个存储服务既可以支持 HDFS,也可以支持 S3,也可以支持他们混合使用。在计算方面,顺丰科技也做了容器化,就是把引擎(尤其是 Spark)做了纯粹的 Kuberentes 化,并以自建的非共享式缓存缓解存算分离后带来的性能损失,最终实现资源的按需弹性伸缩及跨云弹性融合的效果。

 


在数据组织优化方面,首先,用户想要做一个数据的复制或者对数据进行生产测试,因为要用到的数据就是生产数据,且测试数据还要跟原来的数据做对比,所以需要这个数据本身支持多版本,于是顺丰科技以 Hudi 作为数据底盘。Hudi 包括两部分,一部分是数据怎么快速接入进来,另一部分是用户如何通过简单的 SQL,把 Hudi 本身也有的一些能力整合进来,让用户在做数据开发的时候跟离线开发没有什么区别,直接用 SQL 即可用 Hudi 数据进行准实时数据开发。

 

在测试的时候,也就是用户在线上测试运行阶段,平台自身会在后台做数据的克隆,并自动对比试运行结果,若没有问题的话即可自动上线,变成生产任务,让整个数据的加工、测试、上线做到比较准确的验证。



至于统一 SQL,则指的是把数据由汇聚才可以用,转到链接即可用的效果,相当于是一个逻辑统一的实时的数据湖,这里有三个重点,第一个是支持跨云、跨大数据分析引擎的融合分析,相当于一个简单的 SQL 能够直接跨 Hive、Presto,包括 Doris 进行实时关联和分析,这些都与数据资产打通,相当于只要是数据资产管理的数据,用户都可以通过简单的 SQL 进行融合的数据分析。第二个是无感优化用户大数据架构,支撑已有技术生态,实现向云上数仓的平滑过渡。第三个是,支持跨云、跨大数据引擎全局统一元数据管理,实现统一权限管控,并支持基于代价估算的全局解析执行引擎。

 

总体来说,统一 SQL 相当于是顺丰用户对大数据使用的视窗,实现用户对数据的端到端透明化使用。

 


圆桌畅谈:“数智时代,重塑数据价值需要几步?”

 

Q:如何定义未来的"数据价值”?未来的"数据价值”是怎样的?

 

徐樊磊:在不同的时期,数据价值应该“匹配”不同的特点,比如说 PC 互联网时代,我们用谷歌、百度层搜索引擎,其实也做到了人和文本信息的匹配,但这种匹配相对来说是比较浅层次的。未来我们能看到的这种“匹配”将达到多维,比如实时、主动的、结构化的。所以说,定义未来的数据价值,其实就已有数据真的能“匹配”到你想要的。

 

季振峰:数据现在已经成为数字经济时代的生产要素,作为生产要素,它可以流通和交易,这在某种程度上就体现了数据的价值。但数据真正的价值不在于交易和流通,而在于使用,即:描述现在、模拟变化、预测未来。从数据中获取知识和洞察,并驱动企业的业务决策是数据价值的真正体现。

 

杨华:站在企业的角度来看,我认为不管什么时候数据的核心价值一直都是让数据变得更能够驱动业务的决策以及企业的管理或者变革,这是它的核心要素。就未来价值而言的话,我们需要继续提升我们数据的新鲜度,因为我认为越新鲜的数据它的价值其实是越高的,这也是现在像一些 Streaming 的 Database 变得越来越流行的一个原因。

 

蔡适择:看数据,本质上来讲还是为了了解自己,了解企业自己的情况、了解客户,这些数据驱动企业做战略调整及规划,这是数据最基本的价值。从经济学角度来看,价值是客体对主体表现出来的意义和效用性,所以数据价值应该是由数据真正的使用者,即消费者来定义的,说白了应该是由市场需求来决定。但这也并不意味着那些未被使用的数据就没有价值,因为现在没有使用也不代表未来不适用。

 

Q:低/零代码实现自动化,AI 是否真的可以反哺数据实现智能化?

 

徐樊磊:这个问题可以简单翻译为低、零代码这种技术的背景之下,AI 在数据治理中是否可以发挥作用。答案是肯定的,之前,在图像的识别、语音识别等很多领域,AI 的能力已经超过人类,所以在数据治理领域,AI 的未来也是值得期待的。低、零代码这种相对低门槛,可以让大家便捷地进行数据处理,这直接可以说明,AI 促进了数据治理。

 

季振峰:AI 反哺数据实现智能化主要有以下几个方面。首先,自动数据处理,自动数据特征识别、自动数据标准化和质量稽核等。其次,自动运维,数据开发作业的运维和调度是非常复杂的,AI 可以通过作业依赖关系和作业运行情况做到自动运维,并智能停止或重新执行作业。最后,AI 在一定程度上也能支持资源优化,包括计算资源优化、数据处理流程优化、查询优化等。

 

杨华:AI 是可以去促进低代码或者零代码自动化的,但这是个未来趋势,现在应该还达不到理想状态。比如最大的开源托管代码服务提供商 GitHub 已经开发了代码的自动补全的一些工具,但是很多的自动补全其实仍然存在很大的漏洞。又比如说被引用的代码可能存在一些缺陷或者一些严重的安全漏洞,只有解决了安全性问题,才可以正式的谈“AI 是否真的可以反哺数据实现智能化”。

 

蔡适择:业界在这一块也开展了不少的尝试,取得的效果还是不错的,包括顺丰自己在这方面也落了不少的成果,比如说数据安全的打标,像这种单场景多数据的情况下,通过规则及数据属性以 AI 的方式去识别数据的敏感度,并且依托数据血缘实现数据安全的全链路的自动标注,达到全面的数据安全梳理。

 

Q:基于 AI 应用的数据治理面临着哪些难题?想要重塑数据价值,需要怎么做?

 

徐樊磊:第一,做数据的准确和统一的原则,原先我们看到仓是仓,湖是湖,AI 是 AI,这种数据的不统一导致最后没有一份原始的、统一的、准确的数据可以进行调用,那“数据价值”就是空谈。第二,要重点关注规模,因为 AI 跟人工不太一样,AI 至少目前它需要投喂大量的数据。而且成本要足够低,因为成本高会导致用户舍不得保留这些数据。第三,解决端到端的统一,企业内的每个角色对于数据的操作方式都实现统一,每个人都能以最简单、最便捷的方式将自己的需求反馈到“链条”上的每个人。

 

季振峰:要发挥数据的价值或者重塑数据价值,首先要通过数据治理把数据从异构的、离散的状态变成真正的数据资产。数据治理正在从人力密集型向集约化、自动化和智能化转变,因此华为云推出数据治理生产线 DataArts ——顾名思义,就像生产线一样,把海量的复杂的无序的数据,生产成为清洁透明高质量的数据能源,输送给业务。

 

杨华:重点还是要关注数据治理的准确性。例如我们在治理得有些方面,比如说数据安全方面其实是不会允许给你一些犯错的机会的,因为在安全这一块,现在其实是非常的严格。

 

至于重塑数据价值,我个人认为在允许犯错的地方,可以逐步利用算法或者自动化的规则来逐步地替换掉人力。像安全这类需要严格处理的方向还是得和自动化能力配合着来,当然 AI 和人工的配置比重也是随着 AI 技术的进步而发生变化的。

 

蔡适择:数据价值重塑可分为三步,首先,构建端到端的数据生产的供应链;其次,全局统一数据治理体系,让数据分类清晰明了;最后,数据平台要建立自运营体系,以数据运营来驱动数据治理,使数据价值量化,让数据模型自动持续优化。只有数据被及时使用,才叫真正地产生了价值。

 

圆桌问诊:开发者比较关心的问题

 

Q1:数智融合时代,如何做好"元数据管理?

 

季振峰:元数据管理是数智融合的关键基础,数智融合需要无缝连接企业任何数据,构建企业级数据目录,实现数据的资产化管理。元数据管理的业务目标简单来讲就是让企业数据找得到、好理解、易使用:

  • 找得到:构建主动元数据能力,主动查找、识别、采集、丰富和存储企业各种元数据信息;

  • 好理解:通过元数据智能,自动分析数据特征、识别关联关系、补全业务元数据、构建数据知识图谱等;

  • 易使用:构建企业级数据目录,提供企业统一的数据资产视图,支持数据智能搜索推荐、数据共享交换、数据价值评估等能力,支撑数据价值变现。

 

杨华:我觉得元数据管理我们可以拆解为三步走的策略,首先是定目标,接着是出方案,然后是推落地。

 

首先定目标要先确定元数据想干啥,想实现怎么样的价值。因为元数据从概念上来说还是比较宽泛的,我们常规会分为业务类的元数据,技术类的元数据,以及操作类型的元数据。元数据的应用场景其实也是比较多的,比如说典型的应用在数据治理或者提升作业的溯源能力,我们现在可能有一些更高的目标,比如说更好的促进布局一体化或者 AI 一体化的这些能力的融合。

 

其次,出方案。就是为了实现这个目标我们需要怎么去做,因为这样的话我们就可以判断我们有哪些元数据可以采集,怎么存储?是不是需要用一些图数据库来存?怎么查询?怎么使用等等。考虑到融合,我们还会判断我们还需要哪些类型的元数据,我们可能会需要一些定制化的开发,我们可能需要构建一个从采集到存储,到提供访问服务的一体化平台,将整个元数据的能力释放出来,在此之上我们可能还会构建一个用于实现目标应用层的能力。

 

最后,推落地是指有了我们的方案之后,接下来落地去实施的。在实施的过程中我觉得也不一定非得从零开始,比如说我们可以向利用现在一些云厂商,华为云已经提供的已有的开箱即用的能力。在业界也有一些开源的元数据平台或者相关的框架,例如 LinkedIn 之前也开源过一个叫 Datahub 的元数据平台,当然对于业务类的元数据其实可能还需要基于特定的业务场景来做相应的定制。

 

当前其实在机器学习和 AI 方向的元数据建设业界应该主要处在比较初级的阶段,这部分可能需要整个行业花一些精力做一些探索。

    

 Q2:如何利用 AI 技术从源头上建立完整、科学的数据治理体系?

 

蔡适择:通过 AI 技术可以大幅便利这个进程,首先比如说在找数据方面,因为找数据不仅仅是数据消费者,也包括数据开发者自己要开发数据的时候也涉及到找数据,所以在找数据方面重点在于元数据的完善和管理,也就是刚刚畅谈环节里面也聊到,通过 AI 技术可以根据数据规则,利用聚类和知识图谱实现数据的自动分类、自动识别主数据,自动构建全链路的 ER 视图,补全注释、数据类型,包括敏感级别来进行全链路的跟踪,让数据清晰的摆放到相应的类目上,让用户能够快速定位其所需要的数据。

 

再者,我们让用户搜到的数据能够快速被使用,除了打破数据孤岛,屏蔽底层技术,建立逻辑统一的数据中台,让用户透明使用之外,更为追求的是要数据的模型能覆盖面更全,关联更少,使用户得以通过简单的拖拽获得想要的数据,在这里 AI 技术就可以发挥非常大的作用。

 

徐樊磊:利用 AI 技术从源头上建立完整科学的治理体系,主要需要关注三点。第一,面对这种重复的治理工作,需要搭建针对性体系解决的重复性的环节,将面向 AI 数据治理环节流程化、标准化,包括体系化,主要目的是降低数据的反复准备、特征筛选、模型调优迭代的成本,缩短 AI 模型开发建构全流程的周期,要提升 AI 应用规模化落地的效率。第二,从建设之初就要考虑多元异构数据的质量管理体系。第三,基于多元异构需要做标准体系的建设准备,为 AI 整个模型开发提供一致的数据语言,从而快速实现数据的重复共享,进一步进行数据的特征管理,将多元异构数据转化为机器能够理解的“结构化数据”。


华为云数智融合平台,通过 DataArts 和 ModelArts 融合的独家创新架构,打通了大数据和人工智能,兼顾成本与性能,实现统一管理、一数多用,同时实现敏捷用数,全流程自动化与智能化。

 

同时,华为云数智融合平台的领先优势和价值,也在千行百业的实践应用中得到印证。尤其在互联网行业市场,依托数智融合平台,华为云已助力 T3 出行、梦饷集团、脉脉、兴盛优选等互联网企业提升数据利用效率,加速业务创新,实现降本增效提质。目前,已有 80% 的中国 Top50 互联网企业选择华为云,“H(华为云)+X”的多云部署模式也越来越受到企业客户的认可与选择。

2022-08-18 16:3917874

评论

发布
暂无评论
发现更多内容

新版Redis不再“开源”,对使用者都有哪些影响?

华为云开发者联盟

数据库 redis 华为云 华为云开发者联盟 华为云GeminiDB

分享一些大数据处理算法

宇文辰皓

大数据

更轻松地部署和升级 NGINX Service Mesh

NGINX开源社区

nginx Kubernetes Helm Service Mesh 服务网格 mTLS

深入理解精准测试理论与技术:揭秘测试技术的核心原理

测吧(北京)科技有限公司

测试

JVM字节码分析与修改:探索代码覆盖率底层实现框架

测吧(北京)科技有限公司

测试

代码覆盖率提升策略:利用静态分析工具优化测试覆盖率

测吧(北京)科技有限公司

测试

利用Elasticsearch进行文本数据的深度分析

测吧(北京)科技有限公司

测试

阿里云实时计算Flink的产品化思考与实践【上】

Apache Flink

大数据 flink 实时计算

数字化工厂MES/MOM一体化解决方案PPT

工赋开发者社区

TikTok直播专线是什么?有什么用?

Ogcloud

海外直播专线 海外直播 tiktok直播 tiktok直播专线 海外直播网络

解锁TikTok直播专线,提高使用体验

Ogcloud

海外直播专线 海外直播 tiktok直播 tiktok直播专线 tiktok直播网络

搭建Elasticsearch、Kibana和Logstash环境:构建强大的数据分析平台

测吧(北京)科技有限公司

测试

云端简易指南:快速启动与管理您的ECS实例

Geek_2d6073

深度解析代码变更对业务的影响范围:业务影响范围关联分析

测吧(北京)科技有限公司

测试

数据可视化与分析:利用Kibana展现数据的视觉化洞见

测吧(北京)科技有限公司

测试

AlphaGPT在法律大模型圈子火了,案件仅需3分钟搞定

科技汇

比 MyBatis 效率快 100 倍...

Java技术精选

中国 10 亿参数规模以上大模型数量已超 100 个;GitHub 推出代码自动修复工具丨 RTE 开发者日报 Vol.172

声网

互联网公司裁员现象调查:探寻背后原因与应对策略

小魏写代码

利用Shell二次封装Elasticsearch客户端:简化数据检索与操作

测吧(北京)科技有限公司

测试

软件测试学习笔记丨Allure2报告中添加附件-日志

测试人

软件测试 测试开发

OLAP性能再获突破!火山引擎ByteHouse性能白皮书发布

Geek_2d6073

敏捷开发:想要快速交付就必须舍弃产品质量?

敏捷开发

项目管理 Scrum 敏捷开发 产品研发 研发

深入了解一下http和https的区别

秃头小帅oi

码上时刻|通过逻辑视图 Logic View 快速实现批流一体

Kyligence

TikTok直播专线:解决出海网络问题痛点,提升商业效率

Ogcloud

海外直播专线 海外直播 tiktok直播 tiktok直播专线 tiktok直播网络

自定义Elasticsearch索引模式:优化数据存储结构以提高检索效率

测吧(北京)科技有限公司

测试

ECS公网连接指南:精明选择公网IP计费策略

Geek_2d6073

软件测试学习笔记丨Allure2 报告中添加附件(视频)

测试人

软件测试

实战代码静态分析工具:利用语法树数据工具提升代码质量

测吧(北京)科技有限公司

测试

RocketMQ 流数据库解析:如何实现一体化流处理?

阿里巴巴云原生

阿里云 RocketMQ 云原生

云原生时代下的数智融合:让 AI 重新定义数据治理,让数据高效激发 AI 创新_AI&大模型_鲁冬雪_InfoQ精选文章