【QCon】精华内容上线85%,全面覆盖“人工智能+”的典型案例!>>> 了解详情
写点什么

数据湖 VS 数据仓库,哪个更好用?

  • 2021-06-30
  • 本文字数:1286 字

    阅读完需:约 4 分钟

数据湖 VS  数据仓库,哪个更好用?

任何数据都需要保护、存储和管理,以便更好地应用。本文对比了数据仓库和数据湖这两个大数据存储和处理中的不同概念,分别从定义、特点和应用方面比较了它们之间的差异,方便你在业务中作出正确的选择。


目前,数据仍然是技术创新的关键之一,任何数据都需要保护、存储和管理以便更好地应用。毋庸置疑,有效和合理的数据利用确实可以为各类企业带来不一样的收益。


本文涉及大数据存储和处理的两个不同概念:数据仓库和数据湖。你将认识到它们的主要优点,并为业务作出正确的选择。

数据仓库:定义、特点和应用


数据仓库是一个用于实现和支持各种业务活动的系统,关系到大数据分析和结构化。通常情况下,数据仓库系统产出的报告被用于目标分析、业务战略发展和工作汇报。


由于采用实时数据分析,该系统可以提供最新的信息,进而很容易应用在业务的各个方面。


数据仓库系统的基本功能包括报告、可视化和商业智能,这使它成为完美的业务分析工具。此外,以下特点也促成了它的广泛应用:


  • 灵活性,无论数据的原始来源是什么,它总能用相同的算法进行提取和转换。

  • 可靠性,数据仓库通常在预定时间更新,这大大减少了实时变化的影响。

  • 可扩展性,能利用任何大小的数据,并适用于任何存储空间。


数据仓库适用于结构化和已处理的数据类型,并提供数据聚合和汇总的只读查询,写入机制和预处理功能使其成为商业分析实施的完美选择。


数据仓库一般应用于银行、金融、公共部门或酒店业,数据存储之前通常要进行预处理。


数据湖:定义、特点和应用


数据湖系统以原始格式存储数据,可以存储结构化(表格或图形)、半结构化(CSV、JSON、日志)、非结构化(电子邮件、文档)和二进制数据(音频、照片等)。


数据湖与其他数据系统主要区别如下:


  • 易用,数据湖可以存储不同来源、不同类型的数据,方便进一步分析和重新安置

  • 组织和结构化,数据是以原始格式进行实时收集和存储

  • 实惠,能为任何规模的数据提供划算的价格

  • 适用于任何时间框架,可以实时或按需更新

  • 无限存储空间,为大数据存储提供优秀的解决方案。


不同于数据仓库,数据湖可以完美地处理不同类型的数据,而且因为能提供高性价比的大数据存储而备受赞赏。


它的这些功能主要提供给数据科学家和工程师,他们需要足够的空间来存储所有的重要数据和项目细节,并在深度学习、实时分析及其他方面采用该系统。



图片来自https://www.n-ix.com


数据湖通常应用于医疗、教育、交通这些行业,它既可以提供实时洞察,还能提供一个检测和预防各种潜在问题的未来预测清单。这些领域通常都需要数据后处理程序,而此类程序可以通过数据湖系统轻松实现。

哪个更好用?


总而言之,是用数据湖还是数据仓库,完全取决于你的需求、目标和期望。


有了数据仓库系统,你可以利用经过组织和预分类的数据达成更进一步的目的,而数据湖系统则可以按原始大小和格式为你存储数据。


在了解每种系统的主要特点以及传统上用于哪些行业之后,你应该会更容易确定哪个系统最适合你的业务。


作者介绍:


Conrad Sturdy,自由撰稿人,热爱户外活动,相信新鲜空气会带来新的灵感。


原文链接:


https://www.datasciencecentral.com/profiles/blogs/data-lake-vs-data-warehouse-what-is-the-difference

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2021-06-30 10:533197
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 487.7 次阅读, 收获喜欢 1964 次。

关注

评论

发布
暂无评论
发现更多内容

秋招!面试十次字节/美团失败总结的《520道LeetCode题Java版答案》

退休的汤姆

Java 程序员 面经 Java工程师 秋招

“智慧”有为!AntDB数据库助力某省高速率先完成自主可控建设

亚信AntDB数据库

AntDB 国产数据库 aisware antdb

前端的状态管理与时间旅行:San实践篇

百度Geek说

前端 JavaScrip

别小看 Log 日志,它难住了我们组的架构师

浅羽技术

日志 log4j slf4j logback 8月月更

Alibaba最新神作!耗时182天肝出来1015页分布式全栈手册太香了

退休的汤姆

Java 程序员 分布式 面经 秋招

逆向工程:揭示Google Colab未公开的秘密

OneFlow

机器学习 深度学习 模型

绿色数据中心案例介绍:阿里巴巴、华为、电信、移动……

蓝海大脑GPU

测试 SAP 电商云 Spartacus UI 3.4.x 和 4.3.x 的 guest checkout 功能

Jerry Wang

typescript 前端 angular Spartacus 8月月更

合合信息对于表格识别与内容提炼技术理解及研发趋势

合合技术团队

人工智能 表格识别 合合信息

基于 gh-ost 的在线 Schema 变更

Bytebase

MySQL 数据库

AIGC:自动化内容生成,AI的下一个引爆点?

晨山资本

AI 2D 3D模型 3D点云

五问五答:第三方风险管理

SEAL安全

网络安全 风险管理 安全风险 软件供应链安全

Java基础知识总结--事务失效的12种场景

阿婷

Java 后端 事务 8月月更

获取IP地址的途径有哪些?要如何保护IP地址不被窃取?

郑州埃文科技

IP地址 追踪IP 保护IP

秒合约交易APP系统开发源码搭建

开发微hkkf5566

让“上链”触手可及:VoneBaaS 赋能传统应用场景

旺链科技

区块链 数字化转型 产业区块链

80%Java开发者面试都问的SpringBoot你竟不会?看完这些笔记足以

退休的汤姆

Java 面经 秋招 spring、

2022 全国大学生操作系统大赛圆满落幕 龙蜥推动人才培养与产业发展深度融合

OpenAnolis小助手

开源 操作系统 龙蜥社区 设计比赛

团队管理之不轻易责备

蛋先生DX

管理 团队 团队氛围

RT-Thread记录(十五、I/O 设备模型之SPI设备)

矜辰所致

RT-Thread 8月月更 I/O设备模型

如何通过OpenHarmony的音频模块实现录音变速功能?

OpenHarmony开发者

OpenHarmony

微服务全链路灰度新能力

阿里巴巴云原生

阿里云 微服务 云原生 灰度 全链路

讲座回顾丨基于 OpenYurt 和 EdgeX 的云边端协同新可能

阿里巴巴云原生

阿里云 云原生 边缘计算

升哲科技荣获2022年“中国IC设计成就奖”

SENSORO

物联网 芯片

阿里云 ACK One 多集群管理全面升级:多集群服务、多集群监控、两地三中心应用容灾

阿里巴巴云原生

阿里云 容器 分布式 云原生 集群

讲真,这份秋招豪礼【面试锦囊】真舍不得给你们

浅羽技术

面试 面试题 秋招 8月月更 秋招你准备的怎样了

阿里架构师花近十年时间整理出来的Java核心知识pdf(Java岗)

退休的汤姆

Java 面经 校招 秋招 java·工程师

长阳土家族自治县政府与升哲科技达成战略合作

SENSORO

新基建 智慧城市 AIOT

2022年密码测评理论与关键技术前沿论坛|海泰方圆分享密码应用改造典型方案

电子信息发烧客

开发者测评:阿里云 ACR 与其他的镜像仓库到底有什么不同?

阿里巴巴云原生

阿里云 云原生 ACR

非关系型数据库 Redis 核心内容

苏玖

数据库 nosql redis redis持久化 8月月更

数据湖 VS  数据仓库,哪个更好用?_AI&大模型_Conrad Sturdy_InfoQ精选文章