生成式AI领域的最新成果都在这里!抢 QCon 展区门票 了解详情
写点什么

数据预备管道:策略、选择和工具

  • 2017-04-19
  • 本文字数:744 字

    阅读完需:约 2 分钟

数据预备是数据处理和数据分析的一个重要组成部分。业务分析师和数据科学家把 80% 的时间花在收集数据和准备数据上,而不是用于分析数据或开发机器学习模型。Kelly Stirman 在上周举行的 2017 企业数据世界大会上分享了有关数据预备的最佳实践。

Kelly 解释了数据预备与数据集成之间的不同点。数据预备一般是由业务分析师来完成的,他们使用 Alteryx Trifacta Paxata 这类工具进行数据预备。而数据集成是一个 IT 工具,一般由 IT 团队来完成,他们会使用 Informatic 、SAS、SQL 或者来自 IBM 的集成工具进行数据集成。

数据集成已经很成熟也很健壮,并已经与企业标准、安全和监管控制集成到一起。数据集成是基于服务器的,所以一般是集中式的,并且具有可伸缩性。不过它也有一些限制,它只是面向 IT 人员,对数据的质量要求不高。对于企业来说,数据集成已经很成熟,但是对于云平台、第三方应用、 Hadoop 和 NoSQL 数据库来说还没有达到相同的成熟度。

相反,数据预备更看重速度、易用性,并能够以更快的速度创造价值。它是基于以数据为中心的模型(相对于以元数据为中心的模型),同时适用于 IT 人员和业务人员。它支持不同的数据处理环境,如 Hadoop、NoSQL 数据库、云平台,以及机器学习。它的局限性体现在:不成熟的技术栈、有限的集成和技能生态系统、不完整的安全集成,以及对 IT 和协调流程的依赖。

Kelly 分别为业务人员、数据科学家和软件开发人员介绍了各种开源和商业工具,并比较了这些工具的优点和缺点。其中的开源工具 Apache Spark Pandas (Python)和 dplyr (R)可以帮助数据科学家和开发人员进行数据预备。

在选择数据预备解决方案和工具时,可以考虑如下因素:可用性、协作、许可模型、监管、复杂性、供应商以及生态系统。

查看英文原文: Data Preparation Pipelines: Strategy, Options and Tools

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2017-04-19 19:001290
用户头像

发布了 322 篇内容, 共 134.0 次阅读, 收获喜欢 144 次。

关注

评论

发布
暂无评论
发现更多内容

重学网络系列之(我的名字叫IP)

自然

网络 9月月更

完美!华为大佬手码20w字Redis全栈小册,原来Redis性能可压榨到极致

Java全栈架构师

数据库 redis 程序员 面试 后端

日拱算法:什么是“情感丰富的文字”?

掘金安东尼

9月月更

设计模式的艺术 第十三章外观设计模式练习(为新开发的智能手机控制与管理软件提供一键备份功能。通过该功能可以将原本存储在手机中的通讯录、短信、照片、歌曲等资料一次性地全部复制到移动存储介质(如MMC卡或SD卡)中。实现过程中需要与多个已有的类进行交互)

代廉洁

设计模式的艺术

常见的网络安全攻击及防御技术概述

阿泽🧸

网络安全 9月月更

记一次 swap 导致系统盘高 IOPS 问题排查

卫智雄

linux运维

DPDK技术学习路线总结,虚拟化专家之路

C++后台开发

后台开发 DPDK VPP OvS DPDK开发

数据存储与物联网

CnosDB

IoT 时序数据库 开源社区 CnosDB infra

如何成为资深的测试专家

穿过生命散发芬芳

测试 9月月更

挑战30天学完Python:Day1火力全开-初识Python(含系列大纲)

MegaQi

9月月更 挑战30天学完Python

LeetCode二分查找使用JavaScript解题,前端学算法

大师兄

JavaScript 面试 算法 LeetCode 9月月更

小六六学Netty系列之Java BIO

自然

网络 9月月更 neety

深入思考Schema管理的几个基本问题

HackMSF

在世界人工智能大会,看京东AI向产业奔涌

脑极体

PANAMA: 共享机器学习集群的网内聚合框架

俞凡

大数据 架构 网络

都2022年了,Python Web框架你不会只知道Django和Flask吧?

梦想橡皮擦

Python 9月月更

首次发布!Java面试八股文让569人成功进入大厂,堪称2022最强面试八股文核心知识版!

退休的汤姆

Java 程序员 面经 秋招 Java八股文

C++学习------cerrno头文件的作用与源码学习

桑榆

c++ 9月月更

2022-09-03:n块石头放置在二维平面中的一些整数坐标点上 每个坐标点上最多只能有一块石头 如果一块石头的 同行或者同列 上有其他石头存在,那么就可以移除这块石头。 给你一个长度为 n 的数组

福大大架构师每日一题

算法 rust 福大大

云原生(三十五) | Prometheus入门和安装

Lansonli

云原生 k8s 9月月更

秋招国内大厂最牛的Java面试八股文合集(全彩版),不接受反驳

退休的汤姆

Java 程序员 面经 Java工程师 秋招

小六六学Netty系列之Java NIO(一)

自然

网络 9月月更 neety

【大话 C 语言】春眠不觉晓,函数知多少?

Albert Edison

递归 C语言 函数 开发语言 9月月更

【精通内核】CPU控制并发原理CPU的中断控制

小明Java问道之路

Linux cpu Linux内核 汇编语言 9月月更

架构实战营模块六作业

zhihai.tu

在互联网,摸爬滚打了几年,我悟了。面对如今经济形势,普通打工人如何应对?

HullQin

Go golang 后端 websocket 9月月更

三种获取URL参数值的方法

devpoint

JavaScript URL参数解析 9月月更

Java 键盘输入n个数进行排序输出

排序 java基础 9月月更

如果你是Java程序员,你会选择Cloud Studio进行云端开发,放弃IDEA吗?

wljslmz

Java Cloud Studio 9月月更

Kubernetes网络插件详解 - Calico篇 - 网络基础

巨子嘉

k8s自定义controller三部曲之三:编写controller代码

程序员欣宸

Kubernetes Controller 9月月更

数据预备管道:策略、选择和工具_大数据_Srini Penchikala_InfoQ精选文章