写点什么

IBM 数据科学平台三大特性解决数据科学家协作问题

  • 2017-06-27
  • 本文字数:1813 字

    阅读完需:约 6 分钟

虽然数据科学是一个比较火爆的话题,也受到越来越多重视,但是企业内部数据科学现状却是:不同数据分析人员使用着包括 Python、R、Spark 在内的多种开源产品,并且版本不一;不同开源技术的使用导致数据资产分散存在,形如散沙;最严重的是,当企业内部多位数据分析人员需要协同工作的时候,缺少一个集成多语言、多数据资产、适于统一管理的平台。正因为看到以上挑战,IBM 在去年推出 IBM Data Science Experience (DSX),解决数据科学家协同工作的问题。近日 InfoQ 记者采访了 IBM 分析平台部门资深大数据专家吴敏达,请他详解 DSX。

支持多种语言 DSX 让协作变得更容易

数据分析并不是什么新鲜事物,对于市面上的数据分析产品,其实大家并不陌生。但是因为不同版本、不同开源语言的数据分析工具“群雄割据”,反而使得数据统一管理在企业内部成了一道难题。

据吴敏达介绍,DSX 支持当前几乎所有主流的算法方面的开源语言,比如 R、Python、Scala。在 DSX 平台上,用户可以自由切换使用不同开源语言,只需要打开浏览器输入链接就可以直接使用,它帮助我们免去了安装不同开源平台的烦琐,解决了不同开源平台杂乱无章管理的痛点,这也使得 DSX 可以协助数据科学家在统一平台上进行协作。而无论是 DSX 的公有云版本还是私有云版本,也采用完全一样的底层架构,都以浏览器方式进行使用。

通过 DSX 使用流程 看协作闭环如何实现

如果说 DSX 的最大优势是什么,吴敏达认为是项目协作概念的引入。项目的资源包括算法模型资产、数据资产、人员、书签,并能够实现任何资产的共享,为团队和个人提供了一个协作的项目空间,大大提高了工作效率。

当然这其中就会涉及到 DSX 在用户中的使用流程了,因为从流程我们能够看到协作如何产生、闭环如何实现。首先是连接数据源;接下来是数据准备和预处理、自动建模、参数优化;然后就是进行模型的发布,其中包括实时,流式传输和批量部署;第四步是模型的应用,比如手持应用、移动应用、网站应用等等;第五步是对模型的管理、持续监控和反馈,可以实现模型的自动学习和自动再训练。可以说 DSX 真正提供了一个端到端的数据科学解决方案。

决策优化、机器学习 DSX 这些功能不容忽视

除对开源算法的支持外,DSX 还配备了决策优化引擎,将机器学习与预测结合在一起,就可以实现从料事如神到运筹帷幄。对此吴敏达列举了某航空公司的例子,通过 DSX 对发动机关键数据和天气、机场等公共数据的收集、存储和利用机器学习的分析,航空公司提前预测发动机故障的可能性。在同一平台 DSX 把前面的预测作为决策优化模型的数据输入,考虑客户服务,成本、维护工程师的可用性和技能,就能为航空公司维护部门提供最优维护计划。

而提到 DSX 就不得不提 SPSS,很多传统金融、电信、制造的客户都对 SPSS 并不陌生并且一直在使用,DSX 未来将支持 SPSS 模型在 DSX 中运行,通过浏览器供用户使用拖拽的方式进行机器学习建模。

对于 DSX,IBM 将其定义为数据科学家日常工作的统一入口。DSX 除具备管理、协作职能之外,DSX 即将支持的 Machine Learning 组件,使更多并不理解底层算法选择、参数优化的数据科学家把精力投向到数据的应用上来,用 DSX 完成数据分析的整个闭环。

基于 Spark 技术 全面拥抱开源

这里值得一提的是 DSX 对 Spark 集群技术的运用。据吴敏达介绍, DSX 采用 Docker 技术布置集群,控制节点实现高可用性,存储节点实现本地数据存储,计算节点实现计算任务。Spark 作为大数据领域当前最热的关键技术,是专为大规模数据处理而设计的快速通用的计算引擎,IBM 对此投入巨大精力,在 Spark 2.x 机器学习领域,IBM 是贡献度第一的厂商,由 IBM 开源的 Apache SystemML 是 Spark 环境下最知名的分布式机器学习项目。

结束语

在企业内部,能够拥有较多数量数据科学家也就意味着企业对数据分析、预测拥有较高需求,而这些需求与业务必然是强关联的,对业务不友好的数据分析管理工具必然不会被广泛使用,而定位于团队协作、致力于成为数据科学家使用入口的 DSX,不仅对开源友好,还拥有决策优化引擎和机器学习平台,要把数据科学家从复杂的数据分析、预测中解放出来让他们真正关心业务,这才是数据科学必然趋势所在。

吴敏达,IBM 分析平台部门资深大数据专家。有近 20 年信息管理和分析软件相关技术经验,专长是大数据、机器学习和数据分析和可视化等相关领域。他是 IBM developerWorks 的大师级作者,已经发表了 20 余篇技术文章和教程。现从事大数据、机器学习相关技术支持和架构设计工作。

2017-06-27 03:112155
用户头像
张晓楠 InfoQ总编辑

发布了 144 篇内容, 共 110.0 次阅读, 收获喜欢 379 次。

关注

评论

发布
暂无评论
发现更多内容

圆满闭幕|WAIC2025规模创历史新高,“灵掘”具身智能模型全球首发引全网关注

网易伏羲

智慧矿山 工程机械智能化 工程机器人 挖掘机器人 装载机器人

新手教程:用外部 PostgreSQL 和 Zookeeper 启动 Dolphinscheduler

白鲸开源

数据库 postgresql zookeeper 开源 Apache DolphinScheduler

超强组合!Dify+Milvus构建生产级RAG系统的终极指南

阿里云大数据AI技术

人工智能 云计算 大数据 Milvus dify

跟复旦硕士聊了1小时,没想到这些基础题他居然也栽了

王中阳Go

Go 后端 模拟面试

中烟创新自研【烟草专卖执法案卷评查系统】入选“北京市人工智能赋能行业发展典型案例”

中烟创新

每日经济新闻专访:押注具身智能模型、不做硬件做“大脑”,网易能否啃下比智驾更复杂的“硬骨头”?

网易伏羲

智慧矿山 网易灵动 工程机械智能化 挖掘机器人 装载机器人

ManageEngine卓豪如何助你轻松应对GMP/FDA审计?

ServiceDesk_Plus

ManageEngine卓豪

精彩回顾 | 破解跨地域运维难题!Bonree ONE 多地多中心版公有云首发实录

博睿数据

社交媒体上舆情监测的“微爆点”:如何识别和干预?

沃观Wovision

舆情监测 海外舆情监控 沃观Wovision 舆情监测系统

汽车线束行业AI智能化MES解决方案:推动智能制造与质量升级

万界星空科技

mes 汽车线束行业 汽车线束mes 制造业转型 智能化MES

昇腾算力赋能视频生成革命 浙江大学团队攻克长时一致性难题

极客天地

Web前端入门:JavaScript cookie 有大小限制吗?溢出会怎样?

不在线第一只蜗牛

JavaScript 前端 Web

数据治理之数据质量评估维度及方法

天翼云开发者社区

数据治理

用文心快码Zulu打造太阳系3D模拟器:从需求到落地的全流程实践

Comate编码助手

3D AI辅助编程 AI 编程 文心快码 文心快码Zulu

中烟创新参编的《软件和信息技术服务行业企业环境社会治理信息披露指南》标准正式发布

中烟创新

社区新贡献:X2SeaTunnel 助你无缝迁移到 SeaTunnel!

白鲸开源

开源 数据同步 Apache SeaTunnel 数据迁移工具 X2SeaTunnel

守护金融核心业务 | 博睿数据《金融业务全景与全链路智能可观测体系建设白皮书》发布!

博睿数据

AI 赋能的故障排除:技术趋势与实践

不在线第一只蜗牛

人工智能

2025可信数据库发展大会召开,天翼云TeleDB领航核心系统创新实践!

天翼云开发者社区

数据库

一图读懂网易灵动“灵掘”与“机械智心”

网易伏羲

智慧矿山 网易灵动 无人挖掘机 无人装载机 装载机器人

【直播预约】天翼云如何通过 DolphinScheduler 实现大数据自动化与全链路血缘,探索实践亮点!

白鲸开源

大数据 技术分享 Apache DolphinScheduler 天翼云 血缘关系

全球首发!网易灵动推出“灵掘”具身智能模型,展示中国工程机械智能化硬核实力

网易伏羲

智慧矿山 网易伏羲 网易灵动 工程机械智能化 工程机器人

e签宝CEO金宏洲受邀出席WAIC世界人工智能大会

科技汇

10分钟无痛部署!字节Coze开源版喂饭教程

测试人

AI Gateway 分析:OpenRouter vs Higress

阿里巴巴云原生

阿里云 云原生 Higress

Vidar Stealer:隐藏在Steam游戏中的信息窃取恶意软件分析

qife122

恶意软件 威胁分析

线上问题定位神器:Arthas

量贩潮汐·WholesaleTide

Python

Django模型关系:从一对多到多对多全解析

电子尖叫食人鱼

数据库 django

暑期高效出行用鸿蒙5,华为钱包畅行无忧卡一碰就过闸、小艺问答智能规划行程

最新动态

一文教会你基于 Rainbond 部署 DolphinScheduler 高可用集群

白鲸开源

大数据 开源 部署 Apache DolphinScheduler rainbond

每日经济新闻专访:押注具身智能模型、不做硬件做“大脑”,网易能否啃下比智驾更复杂的“硬骨头”?

网易伏羲

智慧矿山 网易灵动 工程机械智能化 挖掘机器人 装载机器人

IBM 数据科学平台三大特性解决数据科学家协作问题_IBM_张晓楠_InfoQ精选文章