写点什么

微软开源用于 Spark 的深度学习库 MMLSpark

  • 2017-10-23
  • 本文字数:857 字

    阅读完需:约 3 分钟

微软开源了 MMLSpark ,用于 Apache Spark 的的深度学习库。MMLSpark 可以与微软认知工具包 OpenCV 完美整合。

微软发现,虽然 SparkML 可以建立可扩展的机器学习平台,绝大多数开发者的精力都耗在了调用底层 API 上。MMLSpark 旨在简化 PySpark 中的重复性工作。

以 UCI 的成人收入普查数据集举例,使用其他项目预测收入:

如果直接使用 SparkML,每一列都需要单独处理,整理为正确的数据类型;在 MMLSpark 中只需要两行代码:

复制代码
model = mmlspark.TrainClassifier(model=LogisticRegression(), labelCol=” income”).fit(trainData)
predictions = model.transform(testData)

深度神经网络(DNN)在图像识别和语音识别等领域不逊于人类,但是 DNN 模型的训练需要专业人员方可进行,与 SparkML 的整合也十分不易。MMLSpark 提供了方便的 Python API,可以方便地训练 DNN 算法。MMLSpark 可以方便地使用现有模型进行分类任务、在分布式 GPU 节点上进行训练、以及使用 OpenCV 建立可扩展的图像处理管线。

以下 3 行代码可以从微软认知工具集中初始化一个 DNN 模型,从图像中抽取特征:

复制代码
cntkModel = CNTKModel().setInputCol(“images”).setOutputCol(“features”).setModelLocation(resnetModel).setOutputNode(“z.x”)
featurizedImages = cntkModel.transform(imagesWithLabels).select([‘labels’,’features’])
model = TrainClassifier(model=LogisticRegression(),labelCol=”labels”).fit(featurizedImages)

MMLSpark 已经发布到 Docker Hub 上,使用下面的命令即可在单机部署:

复制代码
docker run -it -p 8888:8888 -e ACCEPT_EULA=yes microsoft/mmlspark

MMLSpark 使用 MIT 协议授权。

查看英文原文

https://github.com/Azure/mmlspark

https://blogs.technet.microsoft.com/machinelearning/2017/06/07/announcing-microsoft-machine-learning-library-for-apache-spark/


感谢蔡芳芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-10-23 19:003737

评论

发布
暂无评论
发现更多内容

MySQL常用函数介绍

Simon

MySQL mysql常用函数

vivo web service:亿万级规模web服务引擎架构

vivo互联网技术

架构 Web 浏览器

Java基础知识篇(2020最新版)准备放进收藏夹吃灰的勿进

简爱W

Java

浅谈备受开发者好评的.NET core敏捷开发工具,讲讲LEARUN工作流引擎

Philips

天地玄黄,宇宙洪荒

zhoo299

随笔杂谈

机器学习算法之——隐马尔可夫模型原理详解及Python实现

迈微AI研发社

Python 学习 算法 隐马尔可夫模型 HMM

牧羊少年奇幻之旅

W

读书笔记 感悟

从零开始的深度学习实用教程 | PyTorch官方推荐

迈微AI研发社

人工智能 学习 算法 教程 PyTorch

【杭州】阿里巴巴搜索推荐事业部开发岗位招聘

iSausage

Java 阿里巴巴 推荐 搜索

给路灯按上“电话卡”,从此不仅只照明还给管理员“打电话”

华为云开发者联盟

人工智能 物联网 物联网化 华为云 路灯

2020中国RPA指数测评报告|T研究

人称T客

必看的数据库使用规范

Simon

MySQL 技术规范

如何优雅的备份账号相关信息

Simon

MySQL

互联网公司建网站时最应该注意什么?

姜奋斗

互联网 网络安全 网站 网站搭建 互联网公司

前端科普系列(1):前端简史

vivo互联网技术

大前端 Web

赋能云端管理 激发智能边缘 英特尔发布超能云终端解决方案

最新动态

时间戳,这样用就对了

Simon

MySQL timestamp

机器学习 | 卷积神经网络详解(二)——自己手写一个卷积神经网络

迈微AI研发社

Python 神经网络 学习 卷积神经网络 CNN

获奖公布丨程序员的七夕骚话该怎么讲?留下你爱的表白~

InfoQ写作社区官方

写作平台 话题讨论 七夕 热门活动

机器学习算法之——逻辑回归(Logistic Regression)原理详解及Python实现

迈微AI研发社

学习 算法 逻辑回归 正则化 梯度下降

带你认识MySQL sys schema

Simon

MySQL

拼多多员工小便池拉屎,网易智能马桶屏蔽信号,360、搜狐厕所被监控,互联网公司厕所那些事!

程序员生活志

互联网 职场

200 行代码就能骗人的首个聊天机器人

程序员生活志

编程 机器人

InnoDB 事务加锁分析

vivo互联网技术

MySQL 数据库 innodb

机器学习算法之——卷积神经网络(CNN)原理讲解

迈微AI研发社

神经网络 学习 算法 CNN

Linux-技术专题-buffer/cache理解

码界西柚

我一个普通程序员,光靠GitHub打赏就年入70万,要不你也试试

程序员生活志

一个域名值百万, 现在不注册,未来价更高

华为云开发者联盟

备案 商标 DNS 域名配置 SSL证书

大数据平台架构设计探究

vivo互联网技术

大数据 架构设计 数据平台

区块链最激动人心的未来是什么

CECBC

大数据 区块链技术

三分钟看懂Python和Java的区别

程序员生活志

Java Python

微软开源用于Spark的深度学习库MMLSpark_语言 & 开发_Beining_InfoQ精选文章