【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

IBM 数据科学平台三大特性解决数据科学家协作问题

  • 2017-06-27
  • 本文字数:1813 字

    阅读完需:约 6 分钟

虽然数据科学是一个比较火爆的话题,也受到越来越多重视,但是企业内部数据科学现状却是:不同数据分析人员使用着包括 Python、R、Spark 在内的多种开源产品,并且版本不一;不同开源技术的使用导致数据资产分散存在,形如散沙;最严重的是,当企业内部多位数据分析人员需要协同工作的时候,缺少一个集成多语言、多数据资产、适于统一管理的平台。正因为看到以上挑战,IBM 在去年推出 IBM Data Science Experience (DSX),解决数据科学家协同工作的问题。近日 InfoQ 记者采访了 IBM 分析平台部门资深大数据专家吴敏达,请他详解 DSX。

支持多种语言 DSX 让协作变得更容易

数据分析并不是什么新鲜事物,对于市面上的数据分析产品,其实大家并不陌生。但是因为不同版本、不同开源语言的数据分析工具“群雄割据”,反而使得数据统一管理在企业内部成了一道难题。

据吴敏达介绍,DSX 支持当前几乎所有主流的算法方面的开源语言,比如 R、Python、Scala。在 DSX 平台上,用户可以自由切换使用不同开源语言,只需要打开浏览器输入链接就可以直接使用,它帮助我们免去了安装不同开源平台的烦琐,解决了不同开源平台杂乱无章管理的痛点,这也使得 DSX 可以协助数据科学家在统一平台上进行协作。而无论是 DSX 的公有云版本还是私有云版本,也采用完全一样的底层架构,都以浏览器方式进行使用。

通过 DSX 使用流程 看协作闭环如何实现

如果说 DSX 的最大优势是什么,吴敏达认为是项目协作概念的引入。项目的资源包括算法模型资产、数据资产、人员、书签,并能够实现任何资产的共享,为团队和个人提供了一个协作的项目空间,大大提高了工作效率。

当然这其中就会涉及到 DSX 在用户中的使用流程了,因为从流程我们能够看到协作如何产生、闭环如何实现。首先是连接数据源;接下来是数据准备和预处理、自动建模、参数优化;然后就是进行模型的发布,其中包括实时,流式传输和批量部署;第四步是模型的应用,比如手持应用、移动应用、网站应用等等;第五步是对模型的管理、持续监控和反馈,可以实现模型的自动学习和自动再训练。可以说 DSX 真正提供了一个端到端的数据科学解决方案。

决策优化、机器学习 DSX 这些功能不容忽视

除对开源算法的支持外,DSX 还配备了决策优化引擎,将机器学习与预测结合在一起,就可以实现从料事如神到运筹帷幄。对此吴敏达列举了某航空公司的例子,通过 DSX 对发动机关键数据和天气、机场等公共数据的收集、存储和利用机器学习的分析,航空公司提前预测发动机故障的可能性。在同一平台 DSX 把前面的预测作为决策优化模型的数据输入,考虑客户服务,成本、维护工程师的可用性和技能,就能为航空公司维护部门提供最优维护计划。

而提到 DSX 就不得不提 SPSS,很多传统金融、电信、制造的客户都对 SPSS 并不陌生并且一直在使用,DSX 未来将支持 SPSS 模型在 DSX 中运行,通过浏览器供用户使用拖拽的方式进行机器学习建模。

对于 DSX,IBM 将其定义为数据科学家日常工作的统一入口。DSX 除具备管理、协作职能之外,DSX 即将支持的 Machine Learning 组件,使更多并不理解底层算法选择、参数优化的数据科学家把精力投向到数据的应用上来,用 DSX 完成数据分析的整个闭环。

基于 Spark 技术 全面拥抱开源

这里值得一提的是 DSX 对 Spark 集群技术的运用。据吴敏达介绍, DSX 采用 Docker 技术布置集群,控制节点实现高可用性,存储节点实现本地数据存储,计算节点实现计算任务。Spark 作为大数据领域当前最热的关键技术,是专为大规模数据处理而设计的快速通用的计算引擎,IBM 对此投入巨大精力,在 Spark 2.x 机器学习领域,IBM 是贡献度第一的厂商,由 IBM 开源的 Apache SystemML 是 Spark 环境下最知名的分布式机器学习项目。

结束语

在企业内部,能够拥有较多数量数据科学家也就意味着企业对数据分析、预测拥有较高需求,而这些需求与业务必然是强关联的,对业务不友好的数据分析管理工具必然不会被广泛使用,而定位于团队协作、致力于成为数据科学家使用入口的 DSX,不仅对开源友好,还拥有决策优化引擎和机器学习平台,要把数据科学家从复杂的数据分析、预测中解放出来让他们真正关心业务,这才是数据科学必然趋势所在。

吴敏达,IBM 分析平台部门资深大数据专家。有近 20 年信息管理和分析软件相关技术经验,专长是大数据、机器学习和数据分析和可视化等相关领域。他是 IBM developerWorks 的大师级作者,已经发表了 20 余篇技术文章和教程。现从事大数据、机器学习相关技术支持和架构设计工作。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2017-06-27 03:111561
用户头像
张晓楠 InfoQ总编辑

发布了 144 篇内容, 共 94.6 次阅读, 收获喜欢 378 次。

关注

评论

发布
暂无评论
发现更多内容

SpringBoot 源码 | applicationContext.refresh() 方法解析

六月的雨在InfoQ

springboot 源码阅读 Refresh 9月月更 SpringBoot启动流程

虚实交互,重磅开启|共建多元、互联的元宇宙产业生态圈,赋能上海打造产业高地

Geek_2d6073

[Spring boot] Spring boot 整合RabbitMQ实现通过RabbitMQ进行项目的连接

Java快了!

Spring Boot

阿里云EMAS移动测试|快速掌握移动端兼容性测试技巧

移动研发平台EMAS

阿里云 应用开发 兼容性测试 移动测试

7.07亿TPC-C背后的技术突破,OceanBase研究成果入选VLDB

OceanBase 数据库

Databend 特性系列(1)|Databend 数据生命周期

Databend

大数据 大数据 开源 数据生命周期

高频面试题:谈谈你对 Spring Boot 自动装配机制的理解

Java快了!

Spring Boot

网络安全周是什么意思?为什么要开展网络安全周?

行云管家

网络安全 网络安全周

开源云管平台有哪些?有哪些优势?

行云管家

云计算 云平台 云管平台 云管理

MobLink Android 快速集成文档

MobTech袤博科技

sdk Android;

[MyBatisPlus]DQL编程控制①(条件查询)

十八岁讨厌编程

Java 后端开发 9月月更

【云原生】Kubernetes操作精讲

陈橘又青

9月月更

了解布隆过滤器

自然

Java core 9月月更

新一代开源时序数据库TDengine有哪些优势?

TDengine

数据库 tdengine 开源 企业号九月金秋榜

一文带你体验MRS HetuEngine如何实现跨源跨域分析

华为云开发者联盟

大数据 后端 企业号九月金秋榜

SpringBoot源码 | refreshContext方法解析

六月的雨在InfoQ

源码 springboot 源码阅读 9月月更 refreshContext

京东金融客户端用户触达方式的探索与实践

京东科技开发者

京东 用户 用户触达 widget 推送

WorkPlus移动应用管理平台 | 政企数字化的超级“连接器”

WorkPlus

私有化的即时通讯工具能为企业带来哪些帮助?

WorkPlus

FreeRTOS记录(八、用软件定时器?还是硬件定时器?)

矜辰所致

软件定时器 FreeRTOS 9月月更

你必须知道的Java泛型

自然

Java core 9月月更

前端二面面试题(附答案)

helloworld1024fd

JavaScript 前端

[SpringBoot系列]基础过渡与夯实(基础配置)

十八岁讨厌编程

Java 后端开发 9月月更

百度App Android启动性能优化-工具篇

百度Geek说

android 性能优化 企业号九月金秋榜

新零售数智化转型,需要怎样的数据底座?

OceanBase 数据库

Paper Time|开放式时空大数据助力智能公交路线规划

OceanBase 数据库

重磅!阿里首推内部“SpringCloudAlibaba项目文档”这细节讲解,封神!

收到请回复

Java 云计算 开源 架构 编程语言

带您了解昇腾模型压缩工具

华为云开发者联盟

人工智能 后端 企业号九月金秋榜

一文看懂:什么是CRM系统?有什么用?哪些公司在用?

优秀

CRM系统

MobLink for Flutter

MobTech袤博科技

flutter ios android

led显示屏有污垢时该怎么清洗?

Dylan

LED显示屏 led显示屏厂家

IBM 数据科学平台三大特性解决数据科学家协作问题_IBM_张晓楠_InfoQ精选文章