写点什么

微软开源用于 Spark 的深度学习库 MMLSpark

  • 2017-10-23
  • 本文字数:857 字

    阅读完需:约 3 分钟

微软开源了 MMLSpark ,用于 Apache Spark 的的深度学习库。MMLSpark 可以与微软认知工具包 OpenCV 完美整合。

微软发现,虽然 SparkML 可以建立可扩展的机器学习平台,绝大多数开发者的精力都耗在了调用底层 API 上。MMLSpark 旨在简化 PySpark 中的重复性工作。

以 UCI 的成人收入普查数据集举例,使用其他项目预测收入:

如果直接使用 SparkML,每一列都需要单独处理,整理为正确的数据类型;在 MMLSpark 中只需要两行代码:

复制代码
model = mmlspark.TrainClassifier(model=LogisticRegression(), labelCol=” income”).fit(trainData)
predictions = model.transform(testData)

深度神经网络(DNN)在图像识别和语音识别等领域不逊于人类,但是 DNN 模型的训练需要专业人员方可进行,与 SparkML 的整合也十分不易。MMLSpark 提供了方便的 Python API,可以方便地训练 DNN 算法。MMLSpark 可以方便地使用现有模型进行分类任务、在分布式 GPU 节点上进行训练、以及使用 OpenCV 建立可扩展的图像处理管线。

以下 3 行代码可以从微软认知工具集中初始化一个 DNN 模型,从图像中抽取特征:

复制代码
cntkModel = CNTKModel().setInputCol(“images”).setOutputCol(“features”).setModelLocation(resnetModel).setOutputNode(“z.x”)
featurizedImages = cntkModel.transform(imagesWithLabels).select([‘labels’,’features’])
model = TrainClassifier(model=LogisticRegression(),labelCol=”labels”).fit(featurizedImages)

MMLSpark 已经发布到 Docker Hub 上,使用下面的命令即可在单机部署:

复制代码
docker run -it -p 8888:8888 -e ACCEPT_EULA=yes microsoft/mmlspark

MMLSpark 使用 MIT 协议授权。

查看英文原文

https://github.com/Azure/mmlspark

https://blogs.technet.microsoft.com/machinelearning/2017/06/07/announcing-microsoft-machine-learning-library-for-apache-spark/


感谢蔡芳芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-10-23 19:003471

评论

发布
暂无评论
发现更多内容

react的useState源码分析

flyzz177

React

天天预约 | 2022年11月产品更新

天天预约

小程序 SaaS 软件系统 产品分析 预约工具

从输入URL到渲染的过程中到底发生了什么?

loveX001

JavaScript

从react源码看hooks的原理

flyzz177

React

从recat源码角度看setState流程

flyzz177

React

百度前端二面常考面试题

loveX001

JavaScript

双机双工是什么意思?与双机热备有什么区别?

行云管家

双机热备 双机双工

聚焦稳定性,Dubbo 发版规划公布

Apache Dubbo

Java 开源 微服务 云原生 dubbo

看透react源码之感受react的进化

goClient1992

React

模块一作业

陈实

「架构实战营」

令人头秃的js隐式转换面试题,你能做对吗

loveX001

JavaScript

低代码平台,企业业务创新的最佳路径

元年技术洞察

低代码 数字化转型 #方舟平台

技术分享| anyRTC音视频与微信小程序互通实践

anyRTC开发者

小程序 音视频 WebRTC RTMP 视频格式转换

北京等保备案预约平台是哪个?多久能办好?

行云管家

等保 等保测评 等保备案 北京

公司CTO:高性能开发,你不会Netty,怎么好意思拿20K?

钟奕礼

Java 程序员 java面试 java编程

StoneDB 首席架构师李浩:如何选择一款 HTAP 产品?

StoneDB

MySQL HTAP 数据库· StoneDB 12 月 PK 榜

深度分析React源码中的合成事件

goClient1992

React

天翼云电脑为医共体建设加buff!

天翼云开发者社区

Node.js 基于区块链的游戏应用的首选

devpoint

JavaScript node.js 区块链 12月月更

不让Bug陪你过年,StarRocks年终抓虫派对重金相邀!

StarRocks

#数据库

数字先锋| 农业农村部大数据公共平台基座上线,天翼云擎起乡村振兴新希望!

天翼云开发者社区

CleanMyMac X2023永久版下载教程及使用许可证

茶色酒

CleanMyMac X CleanMyMac X2023

民办二本程序员阿里、百度、平安等五厂面经,5份offer(含真题)

钟奕礼

Java 程序员 java面试 java编程

腾讯云与流媒体服务商BeLive达成合作,助力提升东南亚与周边地区直播水平

科技热闻

React-Hooks源码深度解读

goClient1992

React

VoneBaaS荣获第二届中国可信区块链安全攻防大赛优秀案例奖

旺链科技

区块链 产业区块链 VoneBaaS 12 月 PK 榜

工作中常用的设计模式--适配器模式

lpe234

后端 设计模式 适配器模式 spring-boot

Java程序员:为了跳槽刷完1000道真题,没想到老板直接给我升职了

钟奕礼

Java 程序员 java面试 java编程

老板答应了我,只要回答对几道简单的Spring问题,就给我涨3K

钟奕礼

Java 程序员 java面试 java编程

拼多多电商部java岗三面落选,记下的面试题,不睡觉都要背下来!

钟奕礼

Java 程序员 java面试 java编程

干货 | 如何快速实现BitSail Connector?

字节跳动数据平台

开源 数据引擎 12 月 PK 榜

微软开源用于Spark的深度学习库MMLSpark_语言 & 开发_Beining_InfoQ精选文章