写点什么

数据预备管道:策略、选择和工具

  • 2017-04-19
  • 本文字数:744 字

    阅读完需:约 2 分钟

数据预备是数据处理和数据分析的一个重要组成部分。业务分析师和数据科学家把 80% 的时间花在收集数据和准备数据上,而不是用于分析数据或开发机器学习模型。Kelly Stirman 在上周举行的 2017 企业数据世界大会上分享了有关数据预备的最佳实践。

Kelly 解释了数据预备与数据集成之间的不同点。数据预备一般是由业务分析师来完成的,他们使用 Alteryx Trifacta Paxata 这类工具进行数据预备。而数据集成是一个 IT 工具,一般由 IT 团队来完成,他们会使用 Informatic 、SAS、SQL 或者来自 IBM 的集成工具进行数据集成。

数据集成已经很成熟也很健壮,并已经与企业标准、安全和监管控制集成到一起。数据集成是基于服务器的,所以一般是集中式的,并且具有可伸缩性。不过它也有一些限制,它只是面向 IT 人员,对数据的质量要求不高。对于企业来说,数据集成已经很成熟,但是对于云平台、第三方应用、 Hadoop 和 NoSQL 数据库来说还没有达到相同的成熟度。

相反,数据预备更看重速度、易用性,并能够以更快的速度创造价值。它是基于以数据为中心的模型(相对于以元数据为中心的模型),同时适用于 IT 人员和业务人员。它支持不同的数据处理环境,如 Hadoop、NoSQL 数据库、云平台,以及机器学习。它的局限性体现在:不成熟的技术栈、有限的集成和技能生态系统、不完整的安全集成,以及对 IT 和协调流程的依赖。

Kelly 分别为业务人员、数据科学家和软件开发人员介绍了各种开源和商业工具,并比较了这些工具的优点和缺点。其中的开源工具 Apache Spark Pandas (Python)和 dplyr (R)可以帮助数据科学家和开发人员进行数据预备。

在选择数据预备解决方案和工具时,可以考虑如下因素:可用性、协作、许可模型、监管、复杂性、供应商以及生态系统。

查看英文原文: Data Preparation Pipelines: Strategy, Options and Tools

2017-04-19 19:001886
用户头像

发布了 322 篇内容, 共 157.2 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

TiDB 在 2021 易车 818 汽车狂欢节的应用

TiDB 社区干货传送门

实践案例

伴鱼数据库之性能大盘

TiDB 社区干货传送门

干货分享丨携程国际业务动态实时标签处理平台实践

TiDB 社区干货传送门

实践案例

【TiDB CPU使用率过高之一】Scheduler worker CPU

TiDB 社区干货传送门

实践案例

使用 TiCDC 实时同步 TiDB 数据到备用逃生环境的实践

TiDB 社区干货传送门

实践案例 安装 & 部署

TiDB 集群跨平台在线迁移方案(离线环境下从 x86 节点迁移到 arm64 节点)

TiDB 社区干货传送门

管理与运维

DM 2.0 小试牛刀

TiDB 社区干货传送门

TiDB 入门运维基础教程(二)--生产环境安装

TiDB 社区干货传送门

安装 & 部署

TiDB集群的GC不回收案例(案情二)

TiDB 社区干货传送门

故障排查/诊断

TiDB在X86和ARM混合平台下的离线部署和升级

TiDB 社区干货传送门

安装 & 部署

都是空格惹的祸

TiDB 社区干货传送门

TIDB br 备份 PermissionDenied

TiDB 社区干货传送门

【精选实践】58 集团的数据库技术选型思路

TiDB 社区干货传送门

数据库架构选型

【SOP 系列 19】region 分布不均问题排查及解决不完全指南

TiDB 社区干货传送门

管理与运维

TiDB 集群 TiKV 节点内存占用较高问题排查

TiDB 社区干货传送门

故障排查/诊断

社区资源这么丰富我们怎么抄作业

TiDB 社区干货传送门

生产环境 TiDB V5.0.3 集群部署

TiDB 社区干货传送门

实践案例

TiDB和MySQL的锁一些分析比对

TiDB 社区干货传送门

实践案例 TiDB 底层架构

TiDB 集群跨平台在线迁移方案(离线环境下从 x86 节点迁移到 arm64 节点)

TiDB 社区干货传送门

管理与运维

SQLserver迁移TiDB场景的实践

TiDB 社区干货传送门

迁移 管理与运维

TiDB 配置参数修改与系统变量修改步骤

TiDB 社区干货传送门

实践案例

扩容TIKV节点遇到的坑

TiDB 社区干货传送门

管理与运维

TIDB:分布式事务算法Percolator学习笔记

TiDB 社区干货传送门

TiDB 底层架构

【TiDB 最佳实践系列】海量 Region 集群调优

TiDB 社区干货传送门

实践案例

TiDB for PostgreSQL 学习指南

TiDB 社区干货传送门

实践案例 管理与运维

TiDB K8S 删除备份阻塞问题排查

TiDB 社区干货传送门

TiDB 底层架构 管理与运维

TiDB K8S 定时备份状态异常问题排查

TiDB 社区干货传送门

管理与运维

SQL上线引发的血案

TiDB 社区干货传送门

TiDB SQL调优实战——索引问题

TiDB 社区干货传送门

性能调优 实践案例

TiDB 对大事务的简单拆分

TiDB 社区干货传送门

性能调优

从TiDB中学习代码提交规范的重要性

TiDB 社区干货传送门

TiDB 底层架构

数据预备管道:策略、选择和工具_大数据_Srini Penchikala_InfoQ精选文章