2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

数据湖 VS 数据仓库,哪个更好用?

  • 2021-06-30
  • 本文字数:1286 字

    阅读完需:约 4 分钟

数据湖 VS  数据仓库,哪个更好用?

任何数据都需要保护、存储和管理,以便更好地应用。本文对比了数据仓库和数据湖这两个大数据存储和处理中的不同概念,分别从定义、特点和应用方面比较了它们之间的差异,方便你在业务中作出正确的选择。


目前,数据仍然是技术创新的关键之一,任何数据都需要保护、存储和管理以便更好地应用。毋庸置疑,有效和合理的数据利用确实可以为各类企业带来不一样的收益。


本文涉及大数据存储和处理的两个不同概念:数据仓库和数据湖。你将认识到它们的主要优点,并为业务作出正确的选择。

数据仓库:定义、特点和应用


数据仓库是一个用于实现和支持各种业务活动的系统,关系到大数据分析和结构化。通常情况下,数据仓库系统产出的报告被用于目标分析、业务战略发展和工作汇报。


由于采用实时数据分析,该系统可以提供最新的信息,进而很容易应用在业务的各个方面。


数据仓库系统的基本功能包括报告、可视化和商业智能,这使它成为完美的业务分析工具。此外,以下特点也促成了它的广泛应用:


  • 灵活性,无论数据的原始来源是什么,它总能用相同的算法进行提取和转换。

  • 可靠性,数据仓库通常在预定时间更新,这大大减少了实时变化的影响。

  • 可扩展性,能利用任何大小的数据,并适用于任何存储空间。


数据仓库适用于结构化和已处理的数据类型,并提供数据聚合和汇总的只读查询,写入机制和预处理功能使其成为商业分析实施的完美选择。


数据仓库一般应用于银行、金融、公共部门或酒店业,数据存储之前通常要进行预处理。


数据湖:定义、特点和应用


数据湖系统以原始格式存储数据,可以存储结构化(表格或图形)、半结构化(CSV、JSON、日志)、非结构化(电子邮件、文档)和二进制数据(音频、照片等)。


数据湖与其他数据系统主要区别如下:


  • 易用,数据湖可以存储不同来源、不同类型的数据,方便进一步分析和重新安置

  • 组织和结构化,数据是以原始格式进行实时收集和存储

  • 实惠,能为任何规模的数据提供划算的价格

  • 适用于任何时间框架,可以实时或按需更新

  • 无限存储空间,为大数据存储提供优秀的解决方案。


不同于数据仓库,数据湖可以完美地处理不同类型的数据,而且因为能提供高性价比的大数据存储而备受赞赏。


它的这些功能主要提供给数据科学家和工程师,他们需要足够的空间来存储所有的重要数据和项目细节,并在深度学习、实时分析及其他方面采用该系统。



图片来自https://www.n-ix.com


数据湖通常应用于医疗、教育、交通这些行业,它既可以提供实时洞察,还能提供一个检测和预防各种潜在问题的未来预测清单。这些领域通常都需要数据后处理程序,而此类程序可以通过数据湖系统轻松实现。

哪个更好用?


总而言之,是用数据湖还是数据仓库,完全取决于你的需求、目标和期望。


有了数据仓库系统,你可以利用经过组织和预分类的数据达成更进一步的目的,而数据湖系统则可以按原始大小和格式为你存储数据。


在了解每种系统的主要特点以及传统上用于哪些行业之后,你应该会更容易确定哪个系统最适合你的业务。


作者介绍:


Conrad Sturdy,自由撰稿人,热爱户外活动,相信新鲜空气会带来新的灵感。


原文链接:


https://www.datasciencecentral.com/profiles/blogs/data-lake-vs-data-warehouse-what-is-the-difference

2021-06-30 10:533545
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 567.3 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

基于WebGPU的AI原生3D引擎迎来新机遇!Orillusion在GOTC上演讲!

Orillusion

开源 渲染引擎 元宇宙 webgpu AIGC

一块显存为 12GB 的 GPU 卡能够在CST 时域求解器仿真的最大网格数是多少?

思茂信息

cst cst使用教程 cst操作 cst电磁仿真 cst仿真软件

使用 Node.js、Socket.IO 和 GPT-4 构建 AI 聊天机器人

devpoint

node.js websocket GPT-4

英特尔锐炫实力出击,游戏、内容创作双管齐下!

E科讯

数据可视化:趋势类可视化图表大全

2D3D前端可视化开发

数据分析 数据可视化 数据可视化工具 可视化图表

深度理解:Redis Hash(散列表)实现原理

Java你猿哥

redis 开源 ssm hash 散列表

2023-05-29:给你一个由 n 个正整数组成的数组 nums 你可以对数组的任意元素执行任意次数的两类操作 如果元素是 偶数 ,除以 2 例如,如果数组是 [1,2,3,4] 那么你可以对最后一

福大大架构师每日一题

golang 算法 rust 福大大

【1对1咨询】土木女生,挖掘个人优势转行程序员

程序员晚枫

程序员 求职 转行

量子程序设计基础 | 从经典计算到量子计算

TiAmo

量子计算 经典计算

硬核!阿里2023版Spring全家桶进阶笔记流出,堪称Java跳槽神器

Java你猿哥

spring Spring Boot spring security Spring全家桶 Spring Cloud Aliababa

焱融科技入选赛迪 2022 中国分布式存储报告挑战者象限

焱融科技

#高性能 #分布式文件存储 #文件存储

GitHub发布即百万!字节内网超实用 java性能优化手册,star超十万

Java你猿哥

Java ssm jvm调优 Java性能优化

2023数博会丨软通智慧发布“一屏统揽”TongView 数字政府慧治平台解决方案

说山水

Generative AI 新世界 | 走进文生图(Text-to-Image)领域

亚马逊云科技 (Amazon Web Services)

自然语言处理 机器学习 开源

Django笔记三十八之发送邮件

Hunter熊

Python django 发送邮件

设计模式之模板方法模式

越长大越悲伤

设计模式

华为云UniXcoder-VESO-v1问鼎CodeXGLUE榜单第一名

华为云PaaS服务小智

算法 代码 华为云 代码语义

前端开发如何更好的避免样式冲突?级联层(CSS@layer)

vivo互联网技术

CSS 级联 @layer

解锁人机交互新技术 华为开发者联创日·全栈AI黑客松大赛等你来

说山水

TiDB x Bolt丨超强可扩展性与弹性助力超 1 亿用户畅享出行服务

PingCAP

MySQL 数据库 TiDB

《Klustron Tech Talk》直播选题有奖问卷调查,获MySQL系列丛书

KunlunBase昆仑数据库

MySQL

不止游戏!英特尔锐炫“天生爱创作”

E科讯

文心一言 VS 讯飞星火 VS chatgpt (25)-- 算法导论4.2 7题

福大大架构师每日一题

福大大 ChatGPT 文心一言 讯飞星火

可逆计算理论中的Delta合并算法

canonical

为什么要用线程池?

javacn.site

创建矢量图形:Patternodes 3 免激活版

真大的脸盆

Mac Mac 软件 矢量图形创作 创建矢量图形

GitHub上开源24小时获星96K的,从零到实战Java架构师成长手册

Java你猿哥

架构 架构师 高可用架构 高性能架构 高可扩展

打造繁荣社区:Solaris 与 Web3 合作的力量

股市老人

引领下一代云计算技术的变革:无服务器架构

xfgg

云计算 severless

4 种 MySQL 同步 ES 方案,yyds!

Java你猿哥

Java MySQL sql elasticsearch Binlog

如何科学地利用MTTR优化软件交付流程?

SEAL安全

DevOps MTTR 企业号 5 月 PK 榜

数据湖 VS  数据仓库,哪个更好用?_AI&大模型_Conrad Sturdy_InfoQ精选文章