9月7日-8日,相约 2023 腾讯全球数字生态大会!聚焦产业未来发展新趋势! 了解详情
写点什么

Gartner 报告:我们正处于数据科学与机器学习工具 “大爆炸”的时代

  • 2019-03-19
  • 本文字数:3860 字

    阅读完需:约 13 分钟

Gartner报告:我们正处于数据科学与机器学习工具 “大爆炸”的时代

日前, Gartner 发布了 2019 年版面向数据科学与机器学习工具的魔力象限。Gartner 的魔力象限是在某一特定时间内对市场情况进行的图形化描述,根据 Gartner 的定义,它描述了 Gartner 依据标准对该市场内的厂商所进行的分析。Datanami 的 Alex Woodie 为我们解读了 2019 年版面向数据科学和机器学习工具的魔力象限。


Gartner 表示,目前用于数据科学的工具正在迅速发生变化。该公司在其最新的数据科学和机器学习平台的报告中称,我们正处于 “大爆炸” 中。


1 月 28 日,Gartner 发布了《数据科学和机器学习平台魔力象限》(Magic Quadrant for Data Science and Machine Learning Platforms),并表示:“数据科学和机器学习市场是健康、活跃的,众多供应商提供了一系列产品。这个市场正在经历一场‘大爆炸’,这场‘大爆炸’不仅重新定义了应由谁来做数据科学和机器学习,还重新定了数据科学和机器学习应如何实现。”


分析师小组将数据科学平台定义为综合场所,在这里,数据科学家、民间数据科学家和开发人员不仅可以得到构建数据科学应用所需的所有核心功能,还可以将它们嵌入到现有业务流程和管理中,并对其进行管理和维护。


数据科学和机器学习平台必须满足最低要求,并包括以下工具:


  • 提取和准备数据;

  • 以交互方式探索和可视化数据;

  • 工程数据特征和构建预测模型;

  • 与周围基础设施集成,测试并部署这些模型。



Gartner 数据科学与机器学习平台魔力象限(图:Gartner)


Gartner 认为,整合和凝聚力是关键,如果应用程序(尤其是开源产品)只是简单地将各种包和库捆绑起来,那么这样的产品并不能视为真正的平台。


虽然这些核心要求为数据科学和机器学习平台奠定了基础,但不同的供应商在如何实现这些需求上存在着很大的差异。Gartner 指出,专业数据科学家可能更喜欢用 Python 或 R 编写代码,而其他人更喜欢数据科学笔记本的易用性,如 Jupyter。还有一些不太懂技术的人更喜欢用鼠标在界面上点击,因为对他们来说这样很直观。

领导者象限

在领导者象限中,Gartner 列入了四家供应商,包括:KNIME、RapidMiner、TIBCO Software、SAS。



在 Gartner 的评估中,KNIME 名列前茅,这归功于客户的大力支持、广泛的产品组合以及市场上 “最平衡的” 愿景之一。苏黎世公司的产品系列(包括开源 KNIME Analytics 产品和商业 KNIME Server 产品)被誉为分析领域的 “瑞士军刀”。对深度学习、中级用户提供的的易用性以及与其他包集成的高级功能的支持受到了称赞,然而,性能和可扩展性被视为弱点,以及对物联网的吸引力也很有限。



在领导者象限中,Rapid Miner 也是名列前茅,这得益于它在易用性和支持复杂数据科学能力之间的平衡。这款软件支持深度学习技术并部署到 GPU,Gartner 似乎很喜欢 Rapid Miner 为机器学习部署提供更高的透明度。它与开源工具的整合有利于数据科学家。主要关注点是数据准备和可视化、许可和定价、模型操作。



TIBCO 从挑战者象限中迈出了一大步,购买了一系列分析领域的企业,包括 Jaspersoft、Spotfire、Statistica 和 Alpine Data,并将它们整合到统一的平台中。Gartner 很欣赏 TIBCO 的这一点:提供端到端工作流程集成以及物联网功能,尤其是流式分析的整合。它潜在的问题包括性能和稳定性、数据管理及操作方面的问题。



SAS 是这份名单上的多年竞争者。实际上它有多个经过评估的平台。它的 Enterprise Miner 产品在一系列指标中提供了强大可靠的性能,而可视化数据挖掘与机器学习(Visual Data Mining and Machine Learning,VDMML)在数据准备和扩充方面得分很高。很高的客户满意度和强大的市场占有率巩固了 SAS 作为领导者的地位。但 Gartner 也指出了 SAS 存在的一些缺点,特别是在定价和产品一致性方面,SAS EM 的用户体验并没有达到公众的预期,而且 SAS 的开源方式对 Gartner 来说是个问号。

挑战者象限

挑战者象限相当空荡,在这一象限中只有两家供应商: Alteryx 和 Dataiku。



Alteryx 通过保持其 “执行能力”(Y 轴),但却失去了一些 “视觉完整性”(X 轴),从而跌出了领导者象限。Gartner 在端到端管道中提及了加州 Irvin 公司的民间数据科学能力,分析师小组表示,尽管 Alteryx 有这种能力,但市场认为 Alteryx 只是一种数据准备工具,这一观点掩盖了它真正的价值。



Dataiku 的数据科学工作室(Data Science Studio,DSS)因其促进不同利益相关者(从数据工程师到科学家)之间合作的方式而获得好评。Gartner 还喜欢它为机器学习工作流程带来的自动化,以及模型投产后的管理和监控。报告称,Dataiku 存在的一些问题包括可扩展性、定价以及对流式分析和物联网用例的支持。

有远见者象限

有远见者象限如此拥挤不堪,只有不到七家新的供应商在这一象限里争夺位置。



Databricks 于 2 月 5 日获得了 2.5 亿美元的风投。Databricks 对整个分析生命周期的支持、对混合云战略的支持以及支持各种用户的能力,给 Gartner 留下了深刻的印象。用户对基于 Spark 的产品给予了高度评价,据 Gartner 称,文档是 Databricks 的加分项之一。然而,定价、合同谈判及监视、管理和故障排除与调试的潜在问题都是 Databricks 的潜在弱点。



Gartner 表示,这是 DataRobot 在有远见者象限中首次亮相,这要归功于它 “为增强数据科学和机器学习设定了标准”,客户因此有了强大的体验,这有助于公司在已有忠实客户群上获得吸引力。销售执行、定价、可扩展性问题以及 “增强分析” 空间可能的商品化都是共同关注的问题。



H2O.ai 在 2 月 5 日召开了 H2O 世界大会,由于市场竞争激烈,以及客户对其能力的一些担忧,H2O.ai 从领导者象限跌落到有远见者象限中。但,其核心开源机器学习组件的性能仍然是 H2O.ai 的强项,它基于 GPU 的深度学习和无人驾驶人工智能的自动机器学习能力令 Gartner 印象深刻。但是,对于非开发人员来说,学习曲线过于陡峭,而且缺乏管理能力,数据访问和数据准备的能力也欠缺,这些都是令人担忧的问题。



据 Gartner 的说法,Mathworks 在满足以资产为中心的行业客户的需求方面有着 “惊人的力量”(该公司在制造商和工程组织中有着多年的经验)。因此,MathWorks 从挑战者象限向有远见者象限迈出了巨大的一步。它提供的 MATLAB 因其 “民间工程师” 能力而广受赞誉,而实时流媒体、深度学习和仿真的集成数据准备和支持,给人们留下了深刻的印象。Dings 很难被非工程师使用,而且不支持 Google Cloud Platform,缺乏自动机器学习能力也是其不利因素。



Microsoft 凭借基于云端的产品取得了不错的成绩,包括 Azure Machine Learning、Azure Data Factory、Azure HDInsight、Power BI。Microsoft 与第三方合作的方式,尤其是 Databricks 的 Spark 产品,对各种数据角色(包括入门级的机器学习爱好者)的支持也是一个加分项。机器学习过程中的自动化是一个问题,所有不同工具的一致性也是如此。缺乏本地化能力也限制了它的适用性。



尽管 IBM 在 2019 年仍然留在有远见者象限,但它已经失去了优势。IBM Watson Studio 产品的全面性得到了 Gartner 的称赞,该产品为专家和民间数据科学家提供服务。将 SPSS 建模器集成到 Watson Studio 中也得到了称赞。但是,IBM 重塑产品和转变战略的频率是 Gartner 关注的问题,因为获得完整的端到端功能还需要多个产品的许可授权。



Google 在数据科学和机器学习平台排名方面表现相当不错,很大程度上这要归功于 Google 的云端上广泛的可用工具。它的核心数据科学平台包括 Cloud ML Engine、Cloud AutoML、TensorFlow 和 BigQuery ML。但是 Google 也提供了独特的硬件,包括 Tensor 处理单元(Tensor Processing Unit,TPU)、Kaggle 众包以及一系列其他产品。对 Google 来说,可扩展性和速度是 Google 的优势。但是,这些工具之间缺乏端到端的一致性是个问题,而且也缺乏可用性。另外,缺少本地化产品也是个问题。

特定领域者象限

特定领域者象限有四家供应商。



SAP 的 Predictive Analytics(PA)产品与 HANA 紧密集成,使其适合 SAP HANA 客户。处理大型 HANA 数据集和江模型部署到 SAP 应用的能力是强项。SAP 对统一机器学习架构的愿景也是如此,它与 Leonardo 机器学习基金会相关。然而,产品的一致性、不断变化的人工智能战略以及客户体验,都是对这家德国巨头不利的标志。



Domino Data Lab 从有远见者象限降级,这主要反映了其感知执行能力的下降。Gartner 很欣赏 Domino 的产品战略,尤其是它专注于协作和构建端到端解决方案。它与开源和专有产品的整合能力是额外的优势,它的可扩展性也是如此。但是,根据 Gartner 的调查,Domino 侧重于专家数据科学家,这让民间数据科学家感到不满,而且它还缺乏一些数据准备、自动化和增强功能。



Anaconda 仍然属于特定领域者类别。Anaconda 产品的主要优势在于它能够接触开源 Python 社区,该社区继续推动数据科学的创新。它扩展开源 Python 的能力也是个优势。但是根据 Gartner 的说法,成功使用 Anaconda 平台所需的专业知识是一个警示,Python “丛林” 的复杂性也是一个问题。对开源社区的依赖也使客户在需要某些特定内容时处于劣势(Gartner 使用了模型操作化的示例),整体的一致性水平也是缺点之一。



Datawatch 是魔力象限的新成员,于 2018 年 1 月收购了 Angoss,Angoss 在该领域拥有超过 20 年的经验。Datawatch 产品的一致性和易用性得到了 Gartner 的称赞,其文本分析和优化引擎组件被标记为高于平均水平。客户支持也是一个加分项,但,数据准备能力的缺乏,以及产品的总体前景和收购带来的不确定性拉低了 Datawatch 的成绩。


原文链接:


https://www.datanami.com/2019/02/08/the-big-bang-of-data-science-and-ml-tools/


活动推荐:

2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

2019-03-19 08:003623
用户头像

发布了 363 篇内容, 共 159.5 次阅读, 收获喜欢 927 次。

关注

评论

发布
暂无评论
发现更多内容

如何 30 分钟搭建一个语聊房

融云 RongCloud

彻底理解 AQS我是懂了,你呢?

何小事儿

Java 多线程 并发

语聊房高质量音乐伴奏的实现

融云 RongCloud

语聊房 音乐播放

10月书讯 | 跟着泰拉去冒险

图灵教育

编程 程序员 书单

利用这份文档,我成功定位阿里P6,却拿着P7的工资

Java 程序员 后端

到了2020年,技术水平到底需要达到怎样的程度才能成为顶级的阿里P8架构师

Java 程序员 后端

刚从今日头条Java研发岗面试回来,我总结的失败原因(附面试题

Java 程序员 后端

GaussDB (for Cassandra) 数据库治理:大key与热key问题的检测与解决

华为云开发者联盟

数据库 分布式数据库 key GaussDB (for Cassandra) 数据库治理

别看是Java基础,很多人已入坑,java技术栈

Java 程序员 后端

ironSource现已支持自定义广告网络

利用多condition动态管理池化的异步资源背景

Java 后端

利用碎片化的时间逆袭进百度,我的面试经历你敢听吗?

Java 程序员 后端

AI 算法在视频可分级编码中的应用

融云 RongCloud

人工智能 音视频 编解码

糟糕程序员的20个坏习惯

Kaito

架构 程序人生 后端 编程修养

活动日程首公布|Apache ShardingSphere Dev Meetup 亮点新揭秘

SphereEx

ShardingJDBC ShardingSphere 技术沙龙 SphereEx

初学者这样玩 TypeScript,迟早进大厂系列!

Java 程序员 后端

判断对象是否已死分析总结——JVM系列,让人茅塞顿开

Java 程序员 后端

BoCloud博云完成 E 轮融资

BoCloud博云

云计算 云原生 博云

初识java-JDBC,mysql索引左前缀原理

Java 程序员 后端

开源应用中心|Discuz!X全新PC社区体验,多种场景一站解决

Discuz! 开源社区 Discuz

DDD战术设计实践

郑印

DDD

【架构设计总结】

Ryoma

双11大促 | 消息推送资源包6折购!一键集成华为、小米等多厂商推送通道

蚂蚁集团移动开发平台 mPaaS

消息推送 push mPaaS 双11 促销

字节Android Native Crash治理之Memory Corruption工具原理与实践

字节跳动终端技术

字节跳动 Android; 火山引擎

工具:Juypter Notebook

正向成长

Jupyter Notebook

初探Linux--鸟哥私房菜读书笔记,廖雪峰java教程百度云

Java 程序员 后端

【Quarkus技术系列】「云原生架构体系」打造基于Quarkus的云原生微服务框架实践

洛神灬殇

云原生 Quarkus 原生云 11月日更

FabEdge 和 SuperEdge 联合在边缘 K8s 集群支持原生 Service 云边互访和 PodIP 直通

BoCloud博云

云原生 边缘计算 superedge FabEdge

揭秘 MatrixDB 数据库内核技术,可编程的数据库!

YMatrix 超融合数据库

数据库 时序数据库 分布式时序数据库 MatrixDB 超融合时序数据库

JavaScript 解构赋值 5 个常见场景和实例

devpoint

JavaScript 大前端 ES6 11月日更

优先队列一些记录以及解题思路

数据结构 Go 语言 优先队列

  • 扫码添加小助手
    领取最新资料包
Gartner报告:我们正处于数据科学与机器学习工具 “大爆炸”的时代_AI_Alex Woodie_InfoQ精选文章