NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

数据湖 VS 数据仓库,哪个更好用?

  • 2021-06-30
  • 本文字数:1286 字

    阅读完需:约 4 分钟

数据湖 VS  数据仓库,哪个更好用?

任何数据都需要保护、存储和管理,以便更好地应用。本文对比了数据仓库和数据湖这两个大数据存储和处理中的不同概念,分别从定义、特点和应用方面比较了它们之间的差异,方便你在业务中作出正确的选择。


目前,数据仍然是技术创新的关键之一,任何数据都需要保护、存储和管理以便更好地应用。毋庸置疑,有效和合理的数据利用确实可以为各类企业带来不一样的收益。


本文涉及大数据存储和处理的两个不同概念:数据仓库和数据湖。你将认识到它们的主要优点,并为业务作出正确的选择。

数据仓库:定义、特点和应用


数据仓库是一个用于实现和支持各种业务活动的系统,关系到大数据分析和结构化。通常情况下,数据仓库系统产出的报告被用于目标分析、业务战略发展和工作汇报。


由于采用实时数据分析,该系统可以提供最新的信息,进而很容易应用在业务的各个方面。


数据仓库系统的基本功能包括报告、可视化和商业智能,这使它成为完美的业务分析工具。此外,以下特点也促成了它的广泛应用:


  • 灵活性,无论数据的原始来源是什么,它总能用相同的算法进行提取和转换。

  • 可靠性,数据仓库通常在预定时间更新,这大大减少了实时变化的影响。

  • 可扩展性,能利用任何大小的数据,并适用于任何存储空间。


数据仓库适用于结构化和已处理的数据类型,并提供数据聚合和汇总的只读查询,写入机制和预处理功能使其成为商业分析实施的完美选择。


数据仓库一般应用于银行、金融、公共部门或酒店业,数据存储之前通常要进行预处理。


数据湖:定义、特点和应用


数据湖系统以原始格式存储数据,可以存储结构化(表格或图形)、半结构化(CSV、JSON、日志)、非结构化(电子邮件、文档)和二进制数据(音频、照片等)。


数据湖与其他数据系统主要区别如下:


  • 易用,数据湖可以存储不同来源、不同类型的数据,方便进一步分析和重新安置

  • 组织和结构化,数据是以原始格式进行实时收集和存储

  • 实惠,能为任何规模的数据提供划算的价格

  • 适用于任何时间框架,可以实时或按需更新

  • 无限存储空间,为大数据存储提供优秀的解决方案。


不同于数据仓库,数据湖可以完美地处理不同类型的数据,而且因为能提供高性价比的大数据存储而备受赞赏。


它的这些功能主要提供给数据科学家和工程师,他们需要足够的空间来存储所有的重要数据和项目细节,并在深度学习、实时分析及其他方面采用该系统。



图片来自https://www.n-ix.com


数据湖通常应用于医疗、教育、交通这些行业,它既可以提供实时洞察,还能提供一个检测和预防各种潜在问题的未来预测清单。这些领域通常都需要数据后处理程序,而此类程序可以通过数据湖系统轻松实现。

哪个更好用?


总而言之,是用数据湖还是数据仓库,完全取决于你的需求、目标和期望。


有了数据仓库系统,你可以利用经过组织和预分类的数据达成更进一步的目的,而数据湖系统则可以按原始大小和格式为你存储数据。


在了解每种系统的主要特点以及传统上用于哪些行业之后,你应该会更容易确定哪个系统最适合你的业务。


作者介绍:


Conrad Sturdy,自由撰稿人,热爱户外活动,相信新鲜空气会带来新的灵感。


原文链接:


https://www.datasciencecentral.com/profiles/blogs/data-lake-vs-data-warehouse-what-is-the-difference

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2021-06-30 10:533234
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 494.1 次阅读, 收获喜欢 1967 次。

关注

评论

发布
暂无评论
发现更多内容

架构师训练营第八周课程笔记及心得

Airs

week4-一个典型的大型互联网应用系统使用了哪些技术方案和手段,主要解决什么问题?请列举描述。

未来已来

【架构师训练营 1 期】第八周学习总结

诺乐

互联网应用架构目标及技术方案

Week 8 作业01

Croesus

Week4 系统架构

贺志鹏

极客大学架构师训练营

架构师训练营 - 第 8 周课后作业(1 期)

Pudding

架构师训练营第一期 - 第八周学习总结

卖猪肉的大叔

极客大学架构师训练营

虽然世界给我们变化,但让我们的人生更向幸福靠近一点点,而入门票就是自学这回事

叶小鍵

不可思议,竟然还有人不会查看GC垃圾回收日志?

田维常

垃圾回收 GC

第四周总结

jizhi7

极客大学 - 架构师训练营 第九周

9527

第八周总结

第八周

等燕归

性能优化(文件、数据结构、算法、网络IO)

ABS

第四周作业

jizhi7

极客大学架构师训练营

架构师 01 期,第八周课后作业

子文

架构师训练营第一期 - 第八周课后作业

卖猪肉的大叔

极客大学架构师训练营

【架构师训练营 1 期】第八周作业

诺乐

架构师训练营第四周作业

邢永春

找出两个链表中合并的元素

浅谈软件研发管理体系建设

大黄蜂

第八周作业

面试重灾区——Synchronized深度解析

执墨

并发编程 synchronized 内存布局 CAS 锁升级

架构师训练营第四周总结

邢永春

week4-作业二:根据当周学习情况,完成一篇学习总结

未来已来

第8周作业

paul

架构训练营 - 第8周课后作业 - 学习总结

Pudding

漫画:一分钟快速了解VPN

OpenVPN

第四周作业总结

hunk

极客大学架构师训练营

架构师训练营 2 期 Week04 总结

数据湖 VS  数据仓库,哪个更好用?_AI&大模型_Conrad Sturdy_InfoQ精选文章