写点什么

数据湖 VS 数据仓库,哪个更好用?

  • 2021-06-30
  • 本文字数:1286 字

    阅读完需:约 4 分钟

数据湖 VS  数据仓库,哪个更好用?

任何数据都需要保护、存储和管理,以便更好地应用。本文对比了数据仓库和数据湖这两个大数据存储和处理中的不同概念,分别从定义、特点和应用方面比较了它们之间的差异,方便你在业务中作出正确的选择。


目前,数据仍然是技术创新的关键之一,任何数据都需要保护、存储和管理以便更好地应用。毋庸置疑,有效和合理的数据利用确实可以为各类企业带来不一样的收益。


本文涉及大数据存储和处理的两个不同概念:数据仓库和数据湖。你将认识到它们的主要优点,并为业务作出正确的选择。

数据仓库:定义、特点和应用


数据仓库是一个用于实现和支持各种业务活动的系统,关系到大数据分析和结构化。通常情况下,数据仓库系统产出的报告被用于目标分析、业务战略发展和工作汇报。


由于采用实时数据分析,该系统可以提供最新的信息,进而很容易应用在业务的各个方面。


数据仓库系统的基本功能包括报告、可视化和商业智能,这使它成为完美的业务分析工具。此外,以下特点也促成了它的广泛应用:


  • 灵活性,无论数据的原始来源是什么,它总能用相同的算法进行提取和转换。

  • 可靠性,数据仓库通常在预定时间更新,这大大减少了实时变化的影响。

  • 可扩展性,能利用任何大小的数据,并适用于任何存储空间。


数据仓库适用于结构化和已处理的数据类型,并提供数据聚合和汇总的只读查询,写入机制和预处理功能使其成为商业分析实施的完美选择。


数据仓库一般应用于银行、金融、公共部门或酒店业,数据存储之前通常要进行预处理。


数据湖:定义、特点和应用


数据湖系统以原始格式存储数据,可以存储结构化(表格或图形)、半结构化(CSV、JSON、日志)、非结构化(电子邮件、文档)和二进制数据(音频、照片等)。


数据湖与其他数据系统主要区别如下:


  • 易用,数据湖可以存储不同来源、不同类型的数据,方便进一步分析和重新安置

  • 组织和结构化,数据是以原始格式进行实时收集和存储

  • 实惠,能为任何规模的数据提供划算的价格

  • 适用于任何时间框架,可以实时或按需更新

  • 无限存储空间,为大数据存储提供优秀的解决方案。


不同于数据仓库,数据湖可以完美地处理不同类型的数据,而且因为能提供高性价比的大数据存储而备受赞赏。


它的这些功能主要提供给数据科学家和工程师,他们需要足够的空间来存储所有的重要数据和项目细节,并在深度学习、实时分析及其他方面采用该系统。



图片来自https://www.n-ix.com


数据湖通常应用于医疗、教育、交通这些行业,它既可以提供实时洞察,还能提供一个检测和预防各种潜在问题的未来预测清单。这些领域通常都需要数据后处理程序,而此类程序可以通过数据湖系统轻松实现。

哪个更好用?


总而言之,是用数据湖还是数据仓库,完全取决于你的需求、目标和期望。


有了数据仓库系统,你可以利用经过组织和预分类的数据达成更进一步的目的,而数据湖系统则可以按原始大小和格式为你存储数据。


在了解每种系统的主要特点以及传统上用于哪些行业之后,你应该会更容易确定哪个系统最适合你的业务。


作者介绍:


Conrad Sturdy,自由撰稿人,热爱户外活动,相信新鲜空气会带来新的灵感。


原文链接:


https://www.datasciencecentral.com/profiles/blogs/data-lake-vs-data-warehouse-what-is-the-difference

2021-06-30 10:533745
用户头像
刘燕 InfoQ高级技术编辑

发布了 1123 篇内容, 共 605.0 次阅读, 收获喜欢 1982 次。

关注

评论

发布
暂无评论
发现更多内容

腾讯云 TDSQL 审计原理揭秘

腾讯云数据库

数据库 tdsql

论亚马逊QLDB与腾讯TDSQL对历史数据的管理和计算

腾讯云数据库

数据库 tdsql

为数据赋能:腾讯TDSQL分布式金融级数据库前沿技术 - 云+社区 - 腾讯云

腾讯云数据库

数据库 tdsql

2021云计算白皮书发布,腾讯云原生数据库TDSQL-C助力共建云上技术生态

腾讯云数据库

数据库 tdsql

低代码的5个误区,你踩雷了吗?

禅道项目管理

低代码 开发

微信或推出聊天记录云备份付费服务,你的微信记录值多少钱?

郑州埃文科技

云服务 微信聊天 数据风险管理

springboot项目集成docker

try catch

Docker Dockerfile springboot

TDSQL:从自主可控金融级数据库看腾讯“智能+”技术中台之路

腾讯云数据库

数据库 tdsql

EMQ 映云科技与 RT-Thread 达成战略合作,共建产业物联网平台

EMQ映云科技

人工智能 云计算 大数据 物联网 emq

一文读懂数据库最新技术趋势:TDSQL带你深度纵览VLDB 2019

腾讯云数据库

数据库

TDSQL:深度剖析数据库国产化迁移之路

腾讯云数据库

数据库 tdsql

如何在MacOS上无缝切换Win11和MacOS?

Zhendong

MacBook m1 Parallels

在同一台计算机中运行多个MySQL服务

Java 数据库 后端 msyql

揭秘TDSQL-A:兼容Oracle的同时支持海量数据交互

腾讯云数据库

数据库 tdsql

腾讯云数据库TDSQL两篇论文入选数据库顶会SIGMOD,产学研结合助力国产数据库生态建设

腾讯云数据库

数据库 tdsql

狂刷《Java权威面试指南(阿里版)》,冲击“金九银十”有望了

Java 编程 架构 面试 程序人生

搞懂现代Web端即时通讯技术一文就够:WebSocket、socket.io、SSE

JackJiang

websocket 即时通讯 IM

你的 SQL 还在回表查询吗?快给它安排上覆盖索引

Java MySQL 数据库 后端

华为云GaussDB首次亮相2021服贸会,为数字人民币提供坚实数据底座

华为云数据库小助手

金融科技 数字经济 GaussDB 华为云数据库

把工作讲给家人听

FunTester

读书笔记 FunTester 奈非文化手册 办公效率 居家工作

Android技术分享| 开源Demo any自习室布局架构

anyRTC开发者

音视频 移动开发 在线自习室 Android技术分享

架构训练营 模块一

Leach Sun

「技术点串烧」☕【Java 技术指南】「难点-核心-遗漏」Java线程状态流转及生命周期的技术指南!

码界西柚

Java 线程 Thread 9月日更

为什么UI自动化难做?—— 关于Selenium UI自动化的思考

LigaAI

测试 UI自动化

打爆怪兽 一起来养猪 养蜂人 幸福饭店

游戏开发_软件开发

软件 App 开发 游戏 语音合成

令我入职阿里的750页微服务架构深度解析文档有何神秘之处?

Java 编程 架构 面试 架构师

精品!阿里P7爆款《K8s+Jenkins》技术笔记,高质量干货必收藏

Java 程序员 架构 面试 k8s

安卓工控主板双网口有什么用途?

双赞工控

安卓主板 工控主板

TDSQL:关于未来,数据库大咖们都聊了什么?

腾讯云数据库

数据库 tdsql

高性能利器:CDN我建议你好好学一下!

九灵

Java 分布式 微服务 CDN

浅析 DDD 领域驱动设计

牧小农

DDD 领域驱动

数据湖 VS  数据仓库,哪个更好用?_AI&大模型_Conrad Sturdy_InfoQ精选文章