AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

微软开源用于 Spark 的深度学习库 MMLSpark

  • 2017-10-23
  • 本文字数:857 字

    阅读完需:约 3 分钟

微软开源了 MMLSpark ,用于 Apache Spark 的的深度学习库。MMLSpark 可以与微软认知工具包 OpenCV 完美整合。

微软发现,虽然 SparkML 可以建立可扩展的机器学习平台,绝大多数开发者的精力都耗在了调用底层 API 上。MMLSpark 旨在简化 PySpark 中的重复性工作。

以 UCI 的成人收入普查数据集举例,使用其他项目预测收入:

如果直接使用 SparkML,每一列都需要单独处理,整理为正确的数据类型;在 MMLSpark 中只需要两行代码:

复制代码
model = mmlspark.TrainClassifier(model=LogisticRegression(), labelCol=” income”).fit(trainData)
predictions = model.transform(testData)

深度神经网络(DNN)在图像识别和语音识别等领域不逊于人类,但是 DNN 模型的训练需要专业人员方可进行,与 SparkML 的整合也十分不易。MMLSpark 提供了方便的 Python API,可以方便地训练 DNN 算法。MMLSpark 可以方便地使用现有模型进行分类任务、在分布式 GPU 节点上进行训练、以及使用 OpenCV 建立可扩展的图像处理管线。

以下 3 行代码可以从微软认知工具集中初始化一个 DNN 模型,从图像中抽取特征:

复制代码
cntkModel = CNTKModel().setInputCol(“images”).setOutputCol(“features”).setModelLocation(resnetModel).setOutputNode(“z.x”)
featurizedImages = cntkModel.transform(imagesWithLabels).select([‘labels’,’features’])
model = TrainClassifier(model=LogisticRegression(),labelCol=”labels”).fit(featurizedImages)

MMLSpark 已经发布到 Docker Hub 上,使用下面的命令即可在单机部署:

复制代码
docker run -it -p 8888:8888 -e ACCEPT_EULA=yes microsoft/mmlspark

MMLSpark 使用 MIT 协议授权。

查看英文原文

https://github.com/Azure/mmlspark

https://blogs.technet.microsoft.com/machinelearning/2017/06/07/announcing-microsoft-machine-learning-library-for-apache-spark/


感谢蔡芳芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-10-23 19:003576

评论

发布
暂无评论
发现更多内容

企业如何保障跨境金融业务中的数据安全传输?

镭速

跨境数据传输

以赛促教,以赛促研 ——计算机科学系举办“火焰杯”软件测试开发选拔赛颁奖仪式

测吧(北京)科技有限公司

测试

韩山师范学院-获第四届“火焰杯”软件测试开发选拔赛全国奖项

测吧(北京)科技有限公司

测试

长春工业大学-在2023年全国大学生“火焰杯”软件测试大赛中喜获佳绩

测吧(北京)科技有限公司

测试

华为云耀云服务器L实例助力企业行稳致远

平平无奇爱好科技

高博学子参加第二届火焰杯软件测试高校就业选拔赛喜获佳绩

测吧(北京)科技有限公司

测试

东莞理工大学-第四届“火焰杯”软件测试高校就业选拔赛颁奖典礼

测吧(北京)科技有限公司

测试

区块链开发:链接未来的技术之桥

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

轻量应用服务器为何是小程序开发“黄金搭档”?华为云给出完美答案

平平无奇爱好科技

高效聚合 | AIRIOT智慧虚拟电厂管理解决方案

AIRIOT

智慧电厂 智慧工厂 数字化工厂

HarmonyOS位置服务开发指南

HarmonyOS开发者

HarmonyOS

Java电子病历编辑器源码(云端SaaS服务)

源码星辰

Java 源码

如何选择最适合你的国外云服务器专业指南

一只扑棱蛾子

云服务器 国外云服务器

开启数字化转型新纪元,华为云引领轻量应用服务器创新

平平无奇爱好科技

计算机系本科生获“火焰杯”软件测试高校就业选拔赛一等奖

测吧(北京)科技有限公司

计算机科学与工程学院颁奖仪式

测吧(北京)科技有限公司

测试

网安学院举办第二届“火焰杯”软件测试高校就业选拔赛颁奖典礼

测吧(北京)科技有限公司

测试

华新学院在2022 年全国大学生“火焰杯”软件测试高校就业选拔赛取得佳绩

测吧(北京)科技有限公司

测试

网安学院举办第三届“火焰杯”软件测试高校就业选拔赛颁奖典礼

测吧(北京)科技有限公司

测试

河南工业大学在第三届“火焰杯”软件测试开发选拔赛中 取得佳绩

测吧(北京)科技有限公司

测试

厦门理工学院五名学子获第四届“火焰杯”软件测试开发选拔赛全国奖项

测吧(北京)科技有限公司

测试

第二届、第三届<火焰杯>软件测试开发选拔赛河北赛区颁奖典礼落幕

测吧(北京)科技有限公司

测试

快速渡过新手期!华为云服务器让小程序开发的试错成本更低

平平无奇爱好科技

凭实力碾压友商!中小企业网站建设盲选华为云这款轻量应用服务器

平平无奇爱好科技

数字化红利进入“下半场” ,华为云耀云服务器L实例全力构建中小企业磁力场

平平无奇爱好科技

如何运用AppLink平台中的数据连接器组件

RestCloud

MySQL APPlink

Python读取Ansible playbooks返回信息

不在线第一只蜗牛

Python sql 表单设计

初创企业太“烧钱”?华为云轻量应用服务器激活创业新思维

平平无奇爱好科技

软件工程专业教师参加“火焰杯”软件测试颁奖典礼

测吧(北京)科技有限公司

测试

创业有术,烧钱有道丨华为云为初创企业指明发展之路

平平无奇爱好科技

微软开源用于Spark的深度学习库MMLSpark_语言 & 开发_Beining_InfoQ精选文章