10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

微软开源用于 Spark 的深度学习库 MMLSpark

  • 2017-10-23
  • 本文字数:857 字

    阅读完需:约 3 分钟

微软开源了 MMLSpark ,用于 Apache Spark 的的深度学习库。MMLSpark 可以与微软认知工具包 OpenCV 完美整合。

微软发现,虽然 SparkML 可以建立可扩展的机器学习平台,绝大多数开发者的精力都耗在了调用底层 API 上。MMLSpark 旨在简化 PySpark 中的重复性工作。

以 UCI 的成人收入普查数据集举例,使用其他项目预测收入:

如果直接使用 SparkML,每一列都需要单独处理,整理为正确的数据类型;在 MMLSpark 中只需要两行代码:

复制代码
model = mmlspark.TrainClassifier(model=LogisticRegression(), labelCol=” income”).fit(trainData)
predictions = model.transform(testData)

深度神经网络(DNN)在图像识别和语音识别等领域不逊于人类,但是 DNN 模型的训练需要专业人员方可进行,与 SparkML 的整合也十分不易。MMLSpark 提供了方便的 Python API,可以方便地训练 DNN 算法。MMLSpark 可以方便地使用现有模型进行分类任务、在分布式 GPU 节点上进行训练、以及使用 OpenCV 建立可扩展的图像处理管线。

以下 3 行代码可以从微软认知工具集中初始化一个 DNN 模型,从图像中抽取特征:

复制代码
cntkModel = CNTKModel().setInputCol(“images”).setOutputCol(“features”).setModelLocation(resnetModel).setOutputNode(“z.x”)
featurizedImages = cntkModel.transform(imagesWithLabels).select([‘labels’,’features’])
model = TrainClassifier(model=LogisticRegression(),labelCol=”labels”).fit(featurizedImages)

MMLSpark 已经发布到 Docker Hub 上,使用下面的命令即可在单机部署:

复制代码
docker run -it -p 8888:8888 -e ACCEPT_EULA=yes microsoft/mmlspark

MMLSpark 使用 MIT 协议授权。

查看英文原文

https://github.com/Azure/mmlspark

https://blogs.technet.microsoft.com/machinelearning/2017/06/07/announcing-microsoft-machine-learning-library-for-apache-spark/


感谢蔡芳芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-10-23 19:003671

评论

发布
暂无评论
发现更多内容

如何使用通义灵码玩转Docker - AI助手提升开发效率

阿里云云效

Docker

《Operating System Concepts》阅读笔记:p626-p628

codists

操作系统

GitHub封锁?推荐5个国产的Git仓库替代平台

程序员晚枫

GitHub 开源

《Operating System Concepts》阅读笔记:p629-p635

codists

操作系统

深入研究:京东商品评论API详解

tbapi

京东商品评论接口 京东API 京东评论API 京东商品评论采集

PIRF 429:True or False

Echo!!!

English

如何使用通义灵码玩转Docker - AI助手提升开发效率

阿里巴巴云原生

Docker

PIRF430 - Job Interview

Echo!!!

English

欢迎投稿!Community Over Code Asia 2025 议题征集全面启动!

Apache IoTDB

北京大风来,带了什么来

AI时代的一滴水

人生修炼

性价比很高的智能工单管理系统推荐:轻帆云工单管理效率翻倍,运营成本直降50%!

云智慧AIOps社区

ITSM ITSM软件 工单管理 AI智能客服

2025年最佳的5个找工作AI助手:全面指南

Y11

AI 面试 找工作 实习 agent

2025黑神话悟空更新了什么内容 Mac电脑怎么玩黑神话悟空

阿拉灯神丁

mac电脑虚拟机 CrossOver Mac下载 Mac游戏下载 苹果电脑游戏推荐 黑神话悟空

通义灵码助力JavaScript开发:快速获取API与智能编码技巧

阿里云云效

JavaScript

TapData 与 StarRocks 完成兼容性互认证,携手共建实时数据智能生态,联合打造端到端全链路实时数仓解决方案

tapdata

实时数仓 数据集成 StarRocks 实时数据平台 tapdata和starrocks

如何使用 Grafana 连接 Easyearch

极限实验室

Grafana easysearch

上千元改一份简历,真的值得吗

Y11

面试 找工作 简历 实习

【HarmonyOS 5】敏感信息本地存储详解

GeorgeGcs

鸿蒙 本地存储 敏感信息

香港首届Web3人工智能与RWA产业投融生态对接峰会蓄势待发

TechubNews

人工智能 AI

区块链ETF类APP的开发流程

北京木奇移动技术有限公司

区块链技术 软件外包公司 区块链ETF

深入研究:京东店铺所有商品API详解

tbapi

京东API 京东店铺所有商品API 京东店铺商品采集

深入研究:京东商品视频 API 详解

tbapi

京东API 京东商品视频API

【HarmonyOS 5】鸿蒙实现手写板

GeorgeGcs

鸿蒙 HarmonyOS 本地存储 敏感信息

Easysearch S3 备份实战

极限实验室

S3 easysearch

Arthas profiler(使用async-profiler对应用采样,生成火焰图)

刘大猫

教育 Arthas 大模型 社会科学 人文学科

香港首届Web3人工智能与RWA产业投融生态对接峰会蓄势待发

TechubNews

区块链 人工智能 AI

Dify Agent 驱动轻量级 MCPserver:联动 Zapier 实现智能搜索高效数据流转

汀丶人工智能

agent MCP

摩尔线程精彩亮相2025中国移动云智算大会,以全栈AI赋能智算新时代

新消费日报

ATRNX.AI 全智能量化 Agent 引领金融科技新浪潮——第七届全国金融大数据及 AI 战略融合发展大会在杭召开

TechubNews

区块链 人工智能 web3

区块链 ETF 类 APP 的主要功能

北京木奇移动技术有限公司

软件外包公司 区块链ETF ETF软件

通义灵码助力JavaScript开发:快速获取API与智能编码技巧

阿里巴巴云原生

js

微软开源用于Spark的深度学习库MMLSpark_语言 & 开发_Beining_InfoQ精选文章