PCon全球产品创新大会即将开幕,抢占最后的交流席位! 了解详情
写点什么

四大特点解析华为云智能数据湖“黑科技”

  • 2020 年 3 月 29 日
  • 本文字数:1381 字

    阅读完需:约 5 分钟

四大特点解析华为云智能数据湖“黑科技”

如果有人问数据湖是什么,我会告诉他们,是“桶装水”的集合。


随着企业业务的发展,数据出现井喷,数据量呈几何增长,数据来源和类型更加多元化。传统数据仓库就如同“桶装水商店”,已经承载不了全部水体,因此需要一个可以满足存储需求的,新的架构作为大数据的支撑。


这就是数据湖。它汇聚不同数据源的溪流,包括大量无序的非结构化数据(文本、图像、声音、网页等)。我们把它倒入数据湖,然后开始探索该数据。我们希望这是一个包含所有数据的,一个超快、易于访问的存储库,能解决集成难题的终极方法。


但实际上,存储库反而变成了一个缓慢、僵化的数据沼泽。大数据需要特殊的专长来分析数据。使用原始数据得出分析结论,将持续在数据质量和治理方面发出危险信号。业内给这种问题起了个名字,叫数据囤积障碍。


爆炸式增长的数据及数据孤岛

你应该明白了。只为了保存数据而存储数据,不是一个好主意。我们应该有一个明确的使用目的,然后只向数据供应链中导入相关的数据。当数据水库中的数据不再有用时,就直接丢弃它。没有必要把某个特别的应用程序生成的所有数据都存储下来。以物联网为例,传感器会产生奇大无比的数据量,但大多数时候其实我们只是在意一些极端值而已,比如温度超出了某个阈值范围。下图为某物联网公司的业务示意图。



首当其冲的挑战便是,数据存储、数据处理、AI 组件众多。处理难度极大。



紧接着,数据孤岛问题接踵而至。



多种数据源,每种数据单独在一个库中,业务人员需要在应用层做数据集成/数据搬移,技能要求高,工程耗时长。


数据量日益增大,数据源日益增多,单个库扩容困难,性能下降,成本高,难以做跨市跨省等全量数据分析。


缺乏高级分析工具,前沿技术,如机器学习、图计算、深度学习等,未能充分利用多种数据深入挖掘价值。


用智能解决非智能

鉴于数据湖现状,我们如何利用它们为企业带来优势?这里是智能数据湖整体解决方案,包含四个关键的实践:融合,高效,易用,智能


融合—云化的 hadoop


统一数据存储,再无数据孤岛;开放格式,丰富的数据类型:JSON, CSV, AVRO,图片,视频等;开放接口,兼容原生社区应用:100%兼容 OBS 和 HDFS 接口,总而言之,我们在数据湖中处理数据,试图找到新的洞察力。我们不会,任由数据处于最原始的格式,我们将优化数据。确保数据得到治理,确保数据在语义上一致,并满足业务的要求。


高效

一个字:快。实时数据实时分析, Apache CarbonData 加速,万亿数据秒级响应



易用


做一个一站式、端到端开发工具,支持大数据+AI 敏捷开发。可视化,代表丰富的可视化组件,图形化编辑界面,同时支持定制;而数据湖一站式开发工具,可管理多种大数据服务,实现跨服务作业编排调度;支持拖拉拽,预设 10 多种任务类型。


最后,对于数据标准,数据质量,数据安全的治理不可或缺。


数据湖治理:一站式治理平台(数据标准,数据质量,数据安全)


智能

重点绝不仅仅是数据,而是始终关于你要做什么工作。使用场合是什么,你可以运用什么应用程序来处理该数据以便从中受益——用智能实现高效。


  • 智能元数据采集,统一数据视图

  • 智能数据管理,无需人工拷贝

  • 智能优化建议,免 DBA


对数据进行“联系”,而不是“收集”。相比将数据转移到越来越大的集群或数据仓库,让数据待在数据湖进行智能化处理,来得更省钱、更容易也更高效。


本文转载自 华为云产品与解决方案 公众号。


原文链接:https://mp.weixin.qq.com/s/WbThmozRynwx1vOkaUDzfA


2020 年 3 月 29 日 19:51349

评论

发布
暂无评论
发现更多内容

架构师第二期 第7周总结

月下独酌

极客大学架构师训练营

架构师训练营第 7 周学习总结

菜青虫

极客大学架构师训练营

第十一周 架构方法学习总结 —— 安全稳定

兵长

安全架构 高可用架构

Architecture Phase1 Week11:HomeWork

phylony-lu

极客大学架构师训练营

架构师训练营第 1 期 week11 总结

张建亮

极客大学架构师训练营

架构师训练营 - 第 11 周课后作业(1 期)

阿甘

架构师训练营第 7 周课后练习

菜青虫

极客大学架构师训练营

架构师训练营第十一周课程笔记及心得

Airs

Week7-性能优化-作业1

shuyaxx

Week7-性能优化-总结

shuyaxx

Spock单元测试框架实战指南二-mock第三方依赖

Java老k

Java 单元测试 JUnit spock

LeetCode题解:55. 跳跃游戏,贪心,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

架构师训练营第2期 第7周命题作业

月下独酌

极客大学架构师训练营

架构一期第十一周作业

Airs

第 11 周 作业

Pyr0man1ac

架构师训练营第 1 期 -- 第十一周学习总结

发酵的死神

极客大学架构师训练营

架构师训练营week11作业

FG佳

极客大学架构师训练营

架构师训练营第七周作业

李日盛

性能测试

第十一周学习总结

Meow

Week7 作业

evildracula

学习 架构

第 11 周 怎么又翻车了???

Pyr0man1ac

11 安全稳定课后作业

ABS

第七周作业

hunk

极客大学架构师训练营

架构师训练营第七周小结

韩儿

Architecture Phase1 Week11:Summarize

phylony-lu

极客大学架构师训练营

架构师训练营第十一周学习总结

文智

极客大学架构师训练营 架构师一期

第 7 周 系统架构总结

心在那片海

第十一周作业

Meow

架构师训练营第 1 期 week11

张建亮

极客大学架构师训练营

什么样的股权,才算“到手”?| 法庭上的CTO(3)

赵新龙

股权 CTO 法庭上的CTO

架构师训练营week11总结

FG佳

四大特点解析华为云智能数据湖“黑科技”_语言 & 开发_华为云产品与解决方案_InfoQ精选文章