10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

数据预备管道:策略、选择和工具

  • 2017-04-19
  • 本文字数:744 字

    阅读完需:约 2 分钟

数据预备是数据处理和数据分析的一个重要组成部分。业务分析师和数据科学家把 80% 的时间花在收集数据和准备数据上,而不是用于分析数据或开发机器学习模型。Kelly Stirman 在上周举行的 2017 企业数据世界大会上分享了有关数据预备的最佳实践。

Kelly 解释了数据预备与数据集成之间的不同点。数据预备一般是由业务分析师来完成的,他们使用 Alteryx Trifacta Paxata 这类工具进行数据预备。而数据集成是一个 IT 工具,一般由 IT 团队来完成,他们会使用 Informatic 、SAS、SQL 或者来自 IBM 的集成工具进行数据集成。

数据集成已经很成熟也很健壮,并已经与企业标准、安全和监管控制集成到一起。数据集成是基于服务器的,所以一般是集中式的,并且具有可伸缩性。不过它也有一些限制,它只是面向 IT 人员,对数据的质量要求不高。对于企业来说,数据集成已经很成熟,但是对于云平台、第三方应用、 Hadoop 和 NoSQL 数据库来说还没有达到相同的成熟度。

相反,数据预备更看重速度、易用性,并能够以更快的速度创造价值。它是基于以数据为中心的模型(相对于以元数据为中心的模型),同时适用于 IT 人员和业务人员。它支持不同的数据处理环境,如 Hadoop、NoSQL 数据库、云平台,以及机器学习。它的局限性体现在:不成熟的技术栈、有限的集成和技能生态系统、不完整的安全集成,以及对 IT 和协调流程的依赖。

Kelly 分别为业务人员、数据科学家和软件开发人员介绍了各种开源和商业工具,并比较了这些工具的优点和缺点。其中的开源工具 Apache Spark Pandas (Python)和 dplyr (R)可以帮助数据科学家和开发人员进行数据预备。

在选择数据预备解决方案和工具时,可以考虑如下因素:可用性、协作、许可模型、监管、复杂性、供应商以及生态系统。

查看英文原文: Data Preparation Pipelines: Strategy, Options and Tools

2017-04-19 19:001817
用户头像

发布了 322 篇内容, 共 154.8 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

终于有人把操作系统,CPU,基础知识,网络一次讲清楚了,绝绝子

Java~~~

Java 架构 面试 操作系统 TCP/IP

CV和NLP融合应用,百度联合国内外机构成功举办ICDAR 2021文档图像与语言研讨会

科技热闻

TDSQL的2020进化在未来之前,更在未来之后

腾讯云数据库

数据库 tdsql

字节再次出圈!GitHub上爆火一星期的算法刷题手册竟出自这人之手

Java~~~

Java 架构 面试 算法 刷题

初识FL Studio中的FLEX插件

懒得勤快

Flink 在顺丰的应用实践

Apache Flink

大数据 flink

细节炸裂!阿里P8高管总结出这份1500页的Java编程思想(第六版)

Java~~~

Java 编程 架构 面试 JVM

牛逼!从阿里大牛手里买到了1个G牛逼的Java面试题库,史上最强

Java~~~

Java 架构 面试 JVM 架构师

铁山靠!阿里P9架构师写的这份JDK源码笔记,竟直接带火了GitHub

Java~~~

Java 源码 架构 jdk 面试

GitHub上这份阿里的Java高并发核心手册,即使再过20年依然“NB”

Java~~~

Java redis 架构 面试 高并发

大厂炸锅了!这份全程无尿点的Java彩版面试开挂攻略在GitHub火了

Java~~~

Java MySQL 架构 面试 JVM

微信后台基于时间序的海量数据冷热分级架构设计实践

OpenIM

阿里资深工程师写出这份Java异步编程指南,竟获GitHub百万点赞

Java~~~

Java 架构 面试 计算机 TCP协议

使用 Flink Hudi 构建流式数据湖

Apache Flink

大数据 flink

TDSQL“相似查询工具MSQL+”入选VLDB论文

腾讯云数据库

数据库 tdsql

用6年前的低性能电脑运行「360安全卫士极速版」,效果怎么样?

Regan Yue

安全 测评 病毒云查杀 9月日更

【VueRouter 源码学习】第七篇 - 路由变化触发视图更新

Brave

源码 vue-router 9月日更

逮虾户!清华架构师吐血整理出这份多线程并发指南,带你弯道超车

Java~~~

Java MySQL 架构 面试 JVM

同程内网流传的分布式凤凰缓存系统手册,竟遭GitHub强行开源下载

Java~~~

Java 架构 面试 分布式 微服务

伴鱼:借助 Flink 完成机器学习特征系统的升级

Apache Flink

大数据 flink

AI时代来袭,你的存储做好准备了吗?

焱融科技

AI 高性能 文件存储 云计算, 分布式,

紧锣密鼓完成小闭环,微型博客项目快快进入下一阶段

梦想橡皮擦

9月日更

Alibaba内网“疯狂”传阅的P8开源出的SpringBoot入门到进阶小册

Java~~~

Java 架构 面试 微服务 Spring Boot

重放浏览器请求多链路性能测试实践

FunTester

浏览器 性能测试 接口测试 全链路压测 FunTester

TDSQL 全时态数据库系统-理念与愿景

腾讯云数据库

数据库 tdsql

阿里内网疯狂传阅的“M8级”分布式架构笔记,GitHub刚上线就霸榜

Java~~~

Java 架构 面试 分布式 微服务

Apache Flink 在京东的实践与优化

Apache Flink

大数据 flink

ThreadLocal在链路性能测试中实践

FunTester

多线程 ThreadLocal 性能测试 线程安全 FunTester

HTAP大潮下,TDSQL的探索与实践

腾讯云数据库

数据库 tdsql

Code Review在TDSQL-C 的应用实践

腾讯云数据库

数据库 tdsql

如何使用OkHttp实现websocket

Changing Lin

9月日更

数据预备管道:策略、选择和工具_大数据_Srini Penchikala_InfoQ精选文章