【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

25 个流行的数据工具以及他们的短板

作者:Pete Soderling等人

  • 2020-05-28
  • 本文字数:3353 字

    阅读完需:约 11 分钟

25个流行的数据工具以及他们的短板

如今快速发展的数据生态系统中有数十种新工具。这些工具以一种高效、令人惊讶的方式在数据工作方面相继绽放。未来数十年数据领域相关工作的种子已经播下,并将疯狂生长。但在如今的数据生态中,存在一个理解误区,即使许多工具中的一些工具并不具备什么竞争力,它们也会被认为是具有竞争力的好工具。这种现象并不奇怪,主要影响因素包括:


  • 各种工具之间有很多重叠功能,这种情况的部分因素是因为每种工具都有其特定擅长的领域及功能,它们通常是通过合作来完成某个完整功能;

  • 增长轨迹和类别边界仍然不确定;

  • 即使在某个特定领域,也不存在完全能胜任该领域的单一工具;

  • 企业家在推介风投和销售产品时都倾向于讲“大故事”;


这种理解误区对试图集中精力的工具制造者很不利,对试图评估市场的投资者不利,尤其对于试图利用最佳新工具来构建具有生产力的数据堆栈的数据科学家和工程师而言,尤其不利。


为了研究这个问题,我们对数据生态中的数十个开源工具进行了研究,并提出了下面两个问题:


  1. 该工具独一无二的能力是什么?

  2. 该工具不能用来做什么?


我们调研的范围仅限于开源项目和 Pre-B 轮融资阶段的公司的产品。针对每个工具,我们尽可能简短的对这两个问题进行了回答。数据生态中的工具混乱的现象并不会很快消失,但我们希望这篇文章是一个好的开始。


下面是这些工具的介绍:


  1. Great Expectataions / Superconductive: Great Expectations 是专门用于测试数据系统以及创建测试文件的专用工具。Great Expectations 也可以用于数据分析。Greata expectations 是高度可热插入和可扩展的,并且完全开源。但是,它并不是一个管道执行框架或数据可视化工具。

  2. Databand:Databand 是一个数据化运维(DataOps)解决方案,它专门用于监控产品管道和检测工作流代码、数据或系统层面的事件,同时它还可以帮助工程师对问题进行根本原因分析(root cause nalysis, RCA)。但针对管道协调、数据质量测试或者数据版本控制,Databand 不能作为一个单点解决方案。

  3. Dolt / Liquidata:Dolt 是一个基于 Git 版本控制的 SQL 数据库,因此你可以像使用 Git 一样对 Dolt 进行提交、克隆、拉取、分支和合并等操作。Dolt 是专门用于数据共享的工具,但 Dolt 不能专门用于某种特定的数据操作,如特征储存或数据转移。Dolt 是可用于这些数据操作的一种通用数据库。

  4. Bayes:Bayes 是一个可视化的具有探索性的数据分析工具。它会指导你进行建议的可视化操作,并通过基于交互式叙述的报告轻松实现具有可解释性的共享。Bayes 不是一个商业化的智能面板,也不是面向程序员的基于代码的笔记本。

  5. Hex:Hex 是一个具有计算能力的笔记本平台,它专门用于数据共享。用户可以连接到数据,进行分析,然后轻松地构建一个具有完全交互能力的应用程序,并且组织中的所有人都可以使用这种完全的交互。但是 Hex 并不能作为一个机器学习工程平台或制图工具来使用。

  6. Sisu Data:Sisu 是一个主动分析平台,非常适合快速浏览复杂的企业数据并帮助数据分析师解释关键业务指标为何在变化。Sisu 可以在几秒钟内测试数十亿个假设,并引导用户找到影响程度最大的变化因子。但 Sisu 既不能作为预测工具或模型构建工具,也不能作为描述性面板。

  7. Ascend:Ascend 专门用于使用更少的代码来构建、运行和优化云数据管道。Ascend 将数据连接到它的代码,从而通过自动维护、数据摘要分析、沿袭跟踪、成本优化等方式来建立声明性的数据管道。Ascend 不是一个通用的 Spark 解决方案,而是位于上层的数据工程平台。

  8. Dataform:Dataform 擅长于帮助你管理数据仓库中的数百个数据集。Dafaform 帮助团队将原始数据转化为一组定义明确、可通过测试且可归档化的数据集以进行分析。Dataform 不能作为提取工具使用。

  9. DataKitchen: DataKitchen 是一个 DataOps 流程工具,非常适合将连续部署、可观察性、测试和环境管理带入复杂的数据科学及分析领域。DataKitchen 能够自动执行分析创建和部署工作流、管道执行、代码和数据测试、以及管道监视和维护。但 DataKitchen 不是数据科学、ETL 或专用的排版工具。

  10. Snorkel:Snorkel 是一个用于以编程方式构建训练数据建库的平台。在 Snorkel 中,用户可以直接编写标记函数,而无需手动标记数据。Snorkel 不能用于无监督学习,它是一个人机回圈(human-in-the-loop)平台,致力于从根本上加速用户将其领域知识注入机器学习(Machine Leaningb,ML)模型的过程。

  11. Transform(stealth):Transform 旨在构建一个度量标准存储库,以确保企业能够以标准化、格式化、有组织的方式捕获标准化的度量定义,从而进行流线分析并进行决策。 Transform 不是数据管道框架或商业智能工具。

  12. Materialize:Materialize 擅长在流数据之上执行和维护 PostgreSQL 查询,并以毫秒级的延迟保持最新状态。Materialize 不是时间序列数据库或其他流式微服务平台。

  13. DataHub / Linkedln:DataHub 是一个由元数据支持的搜索和发现程序,旨在提高 AI 和数据科学的生产效率。它具有独特的分布式流优先元数据体系结构,已使其在 LinkedIn 的人脉和大数据上获得成功。它不是数据集成或处理工具,也不是用于运行数据质量检查的协调器。

  14. Prefect:Prefect 是一种工作流程编排工具,可让用户使用纯 Python API 定义任务流,并使用可扩展基础结构轻松部署它们。 Prefect 可提供建立健壮管道所需的语义,例如重试,日志记录,缓存,状态转换回调,故障通知等。 Prefect 不是无代码工具或基础结构提供程序。

  15. Marad / Project A:Mara 旨在将 SQL,Bash 和 Python 脚本组合到管道中。 从命令行或通过 Web UI 运行管道。Mara 不是调度、数据移动或依赖关系检测工具。

  16. dbt / Fishtown Analytics:dbt 擅长在数据仓库中创建、维护和记录基于 SQL 业务逻辑的数据库可用性组(Database Availability Group,DAG)。不过 dbt 不是通用的工作编排器。

  17. Watchful:Watchful 主要用于在无标注人工的情况下,快速创建大规模、高质量且带有概率标签的训练数据。通过 Watchful,你可以通过反馈机制快速构建、测试和原型化模型。

  18. Preset:Preset 是 Apache Superset 的制造商设计的基于 SaaS 的数据探索和可视化平台。 Preset 用于可视化和数据消耗分析,它不是计算或编排平台。

  19. Kedro:Kedro 是一个针对数据和 ML 管道的最棒的软件。 Kedro 使用可重现的分析工作流程,I/O 抽象和管道建模,实现了从实验到生产的无缝过渡。Kedro 不是工作流协调器或实验跟踪框架。

  20. Toro Data:Toro 擅长于帮助团队在其数据上部署相应的监视,同时它还会提供建议监视的内容并使其易于执行而无需编写和部署代码。Toro 不会清理或改变数据,也不会原生地控制管道或工作流流。

  21. Tecton:Tecton 非常适合于策划和服务产品功能。Tecton 不是数据处理引擎(例如 Spark)或模型管理工具。 相反,它利用现有的数据处理引擎来处理原始批、流、实时数据,将其转换为功能,并部署这些功能以进行训练和提供服务。

  22. Dagster / Elementl:Dagster 是一个数据协调器,擅长为本地开发、测试、部署和操作构建数据应用程序。Dagster 管道组件可以使用任何语言或框架进行创作,并通过通用元数据和工具组合在一起以形成统一的数据应用程序。Dagster 不是处理引擎,也不是数据或对象仓库。

  23. Select Star:Select Star 是用于解决数据发现问题的数据目录和管理工具。 它在帮助你理解数据方面具有独特的优势,例如提供以下这些信息:你拥有什么数据、数据的存放位置、数据结构以及使用方式。Select Star 不提供 SQL 客户端或 ETL(Extract-Transform-Load)处理。

  24. Monte Carlo(stealth):Monte Carlo 是一个数据可靠性分析平台,其中包括数据监视、故障排除和事件管理。Monte Carlo 不是测试框架、管道或版本控制工具。

  25. Flyte / Lyft:Flyte 专门用于开发可扩展的、容器原生的可复验的管道,这些管道连接不同的分布式系统,同时使数据流处于前部和中心。Flyte 不是机器学习平台,但可以作为其核心组件之一。


通过编制这份清单,一方面是为了赞扬这些惊人的工具、其创始人和 OSS 领导者,是他们推动了我们的数据工具生态系统的发展。 另一方面,我们希望在社区展开关于这些工具的局限性的有益的讨论。我们希望本文能够为数据工具生态提供有益的启示,并希望它们继续蓬勃发展。


原文链接:


https://medium.com/@petesoder/25-hot-new-data-tools-and-what-they-dont-do-31bf23bd8e56


2020-05-28 09:333564

评论

发布
暂无评论
发现更多内容

Hoo虎符研究院|Moonbeam主网上线后 “Layer 0”会有哪些改变?

区块链前沿News

Hoo 虎符交易所 虎符研究院 波卡 Moonbeam

数字经济下,银行线上场景化建设的服务颗粒度、用户忠诚度和生态融合度

CECBC

拥有CI/CD的所有益处,却更绿色

龙智—DevSecOps解决方案

静态代码分析 静态代码分析工具 SAST工具 静态分析安全测试工具

基于Spring Initializr的Spring Boot项目脚手架rc-initializr

redcoder54

Java Spring Boot

Linux下玩转nginx系列(二)——nginx配置文件说明

anyRTC开发者

nginx Linux 音视频 WebRTC 服务器

美团动态线程池实践思路,开源了

yanhom

Java 线程池 动态调整线程池参数 动态线程池 美团线程池

2022年2月国产数据库排行榜: OceanBase“三连增”重夺探花,GaussDB实现本月最大涨幅引期待

墨天轮

数据库 opengauss TiDB oceanbase 国产数据库

DevOps进阶(三)走近 DevOps 工程师

No Silver Bullet

DevOps 敏捷 jenkins 2月月更

敏捷环境中的DevSecOps

龙智—DevSecOps解决方案

敏捷 DevSecOps 敏捷环境 DevSecOps和敏捷

智汇华云|ArStack 热迁移背后的黑魔法

华云数据

大数据培训:在 flink 中使用 hive udf的原因分析

@零度

flink 大数据开发

甜言蜜语生成器、定时问候邮件机…开源程序员为这个情人节付出太多

腾源会

开源

智汇华云 | 通过iscsi为容器提供存储

华云数据

web前端培训: JavaScript 中初始值如何填充数组

@零度

JavaScript 前端开发

如何优雅的处理错误逻辑

蜜糖的代码注释

Java 2月月更 写好代码

花灯照 人笑颜|OceanBase祝大家工作生活都和元宵一样甜

OceanBase 数据库

数据库 分布式 开发者 OceanBase 开源 元宵

使用污点分析检查log4j问题

华为云开发者联盟

Java log4j JNDI 污点分析 信息流分析

SaaS服务的私有化部署,这样做最高效|云效工程师指北

阿里云云效

阿里云 DevOps 云原生 私有化部署 SaaS平台

【C语言】数据类型

謓泽

c 数据类型 2月月更

AI冬奥 | 未来已来?走进元宇宙入口-虚拟数字人

Baihai IDP

人工智能 机器学习 AI 游戏 元宇宙

还没有表白神器?情人节来喽,快为心爱的她送上一份专属的礼物吧~

是Dream呀

Python 2月月更

转载:公司到底怕不怕劳动仲裁?

小江

法律 仲裁

从冬奥火炬“飞扬”看我国氢能产业的发展前景

易观分析

[Python公开课]零基础玩转Python基础篇----第二节:Python的语法基础

是Dream呀

2月月更

最佳实践 | 如何避免一行错误代码造成的血案?

龙智—DevSecOps解决方案

代码质量 静态代码分析 电信公司解决方案 代码检查器

打造爆款游戏互动体验,拍乐云Unity实时语音了解一下

拍乐云Pano

游戏开发 Unity RTC 实时语音

新版本插件解读|如何借助 Forward Auth 增强认证能力

API7.ai 技术团队

开源 网关 认证 Apache APISIX

java培训:MyBatis 相关面试题分享

@零度

mybatis JAVA开发

流量录制与回放在vivo的落地实践

vivo互联网技术

测试工具 回归测试 流量回放

虎啸春来!丰树电子与中联重科签署战略合作协议

联营汇聚

教程直播第8期|一文详解 OceanBase 社区版生态工具 ODP & OCP

OceanBase 数据库

数据库 分布式 直播 OceanBase 开源

25个流行的数据工具以及他们的短板_大数据_InfoQ精选文章