写点什么

Trifacta 通过服务简化数据整理方式

  • 2014-03-28
  • 本文字数:754 字

    阅读完需:约 2 分钟

Trifacta 是一种提供数据分析服务的平台,最近获得了风险投资以推动其能使数据分析师更容易地做数据整理的工作。它的目标是能够比目前更快、更容易地收集、清理和转换数据。

数据整理(Data wrangling) 一直是每个大数据项目中最耗费时间和最令人痛苦的部分。在我们这个时代,数据是流动的、异构的,作为数据源其属性会不断变化。NoSQL 数据库一直都尝试解答在存储方面是使用基于列式存储还是基于文档型存储,但问题依然是如何收集数据和应用其语义。

Trifacta 以用户为中心的角度而不是以程序员的角度去解决问题。业务分析师和数据科学家将能使用可视化的方式去清洗数据集。基于伯克利分校和斯坦福大学的研究,该平台的目的是使员工和机器一起合作,以从数据集中提取数据。

使用可视化的方式我们可以从大数据集中自动化采样数据,这让分析师可以在很短的时间发现有趣的模式。Trifacta 可以应用机器学习算法为重新组织信息和整理提供建议。分析师可以将数据集分组为信息的逻辑部分,每次将其规范化,并在其工作过程中以友好的界面方式显示。归纳概括整个数据集合是最后一个步骤,这将最终形成半结构化的数据集并最终成形。该平台是在底层设计时考虑到用户的体验,让数据分析师能专注于数据的处理,而无需开发复杂的管道去清理数据和把它们放入数据仓库。

Trifacta 的项目前身 DataWrangler 相关研究文章都可以在线获取并可以从中了解Trifacta 是如何实现的,因为它们目前依然处于封闭的beta 测试阶段,所以只能通过预约邀请的方式进行演示。

查看英文原文:**** Trifacta Seeks to Simplify Data Wrangling-as-a-Service


感谢侯伯薇对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-03-28 02:112079
用户头像

发布了 81 篇内容, 共 19.1 次阅读, 收获喜欢 2 次。

关注

评论

发布
暂无评论
发现更多内容

抖音获客系统开发

获客I3O6O643Z97

抖音 头条抖音 抖音霸屏

科技监管能源运作?智慧能源从光热发电技术开始描述

一只数据鲸鱼

数据可视化 智慧能源 光热发电

哔哩哔哩B站视频下载器推荐(简单又好用)

资源君

工具 分享 哔哩哔哩 b站视频下载 教程分享

秒懂 Java 的三种代理模式

Unity ML-agents 参数设置解明

行者AI

一个Android程序员的腾讯面试心得,进阶学习资料!

欢喜学安卓

android 面试 移动开发 程序猿

一例智能网卡(mellanox)的网卡故障分析

OPPO数智技术

后端

以1敌10不是梦,Spring Boot企业级真实应用案例

博文视点Broadview

Cypress 自动化测试

admin

自动化测试 Cypress 测试 单元测试 UI测试

CWE发布2021年最危险的25种软件缺陷

华为云开发者联盟

安全 隐私保护 安全漏洞 cwe 软件缺陷

经典译文 | 项目经理必读的基本工作法则

LigaAI

项目管理 项目经理

手把手教你实现Android编译期注解

vivo互联网技术

android 注解 sdk

如何基于磁盘 KV 实现 Bitmap

Kvrocks

redis BitMap storage KV存储引擎

带你认识MindSpore量子机器学习库MindQuantum

华为云开发者联盟

mindspore 量子机器 MindQuantum 量子机器学习库

来自网络资源资产管理的灵魂拷问

鲸品堂

网络 资源 运营商

开源 Rainbond 5.3.2 版本发布,易用的云原生应用管理平台

Barnett

云计算 开源 基础软件 小版本升级

短视频获客软件系统开发公司

我的职场规划

escray

学习 极客时间 朱赟的技术管理课 7月日更

外包学生管理系统的架构设计

面向对象的猫

图解红黑树

Ayue、

数据结构

SpringBoot启动加载监听器以及监听应用启动阶段事件

捡对象的cy

springboot

小透明学弟的华为上岸之路

程序员鱼皮

Java c++ Python 大前端 后端

私域流量系统开发,APP源码搭建

获客I3O6O643Z97

私域流量 抖音霸屏

给新手学习MySQL的建议

Simon

MySQL

论文解读丨Zero-Shot场景下的信息结构化提取

华为云开发者联盟

测试 图网络 信息结构化 图卷积网络 zero-shot

财务或类财务系统数值精度设计

路边水果摊

数字 财务 精度 数值

最壕逆天改命:18名Java程序员凭阿里P8笔记,同时斩获一线大厂offer

Java架构师迁哥

还在用Jenkins?试试Gitlab的CI/CD功能吧,贼带劲!

英特尔加速制程工艺和封装技术创新

新闻科技资讯

Python OpenCV Canny 边缘检测知识补充

梦想橡皮擦

Python 7月日更

电脑里的视频被误删了可以用EasyRecovery恢复吗?

淋雨

EasyRecovery 文件恢复 硬盘数据恢复

Trifacta通过服务简化数据整理方式_DevOps_Alex Giamas_InfoQ精选文章