写点什么

DMLC:最大开源分布式机器学习项目

  • 2015-06-04
  • 本文字数:852 字

    阅读完需:约 3 分钟

为了实现分布式机器学习领域中代码的共享与共同开发,分布式机器学习社区(DMLC)近日正式发布。作为一个开源项目,DMLC 的相关代码直接托管在 GitHub 中,并采用 Apache2.0 协议进行维护。DMLC 项目的发起者陈天奇怪(网名)表示,项目最初的想法是减少分布式机器学习开发的成本以及新算法被大家接受测试的时间。目前,该项目已经集成了XGBoost、CXXNET 及Minerva 等机器学习库与rabit 和参数服务器等系统组件。接下来,本文就对这些基础库及组件进行简单介绍。

XGBoost 是一个大规模、分布式的通用 Gradient Boosting(GBDT、TBRT 或者 GBM)库。它在 Gradient Boosting 的框架下实现了 GBDT 和广义线性模型等机器学习算法。通过采用分布式计算方法,XGBoost 能够明显加快算法中迭代运算的速度。而作为一个快速、精确的分布式深度学习框架, CXXNET 主要具有轻量、支持多 GPU 和分布式并行系统、非常好的可扩展性以及与其他语言之间的接口清晰等特性。它使用 mshadow 库为用户提供了良好的编程体验和高效的工作能力。与 CXXNET 不同的是, Minerva 提供了一个高效灵活的并行深度学习引擎。它提供了一个类似 Numpy 的 NDarray 编程接口,并支持 Python 和 C++ 语言。其天然的并行性保证了其能够高效地利用多 GPU 进行相关计算。

rabit 是一个提供 Allreduce 和 Broadcast 容错接口的轻量通信框架。它简化了 MPI 的设计,在 Allreduce 和 Boradcast 操作的基础上加入了容灾的支持。其最大的特点在于可移植、可扩展以及非常可靠。另外一个通信框架——参数服务器(Parameter Server),主要负责对 XGBoost 等应用提供分布式的系统支持。它支持工作机与服务器之间的异步、零拷贝键值对的通信。异步的参数服务器接口加上同步的 Rabit 接口基本能够满足各种分布式机器学习算法中的通信需求。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。

2015-06-04 09:4511425
用户头像

发布了 268 篇内容, 共 131.3 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

手撸一个在线css三角形生成器

徐小夕

CSS css3 大前端 CSS小技巧

Seata是什么?一文了解其实现原理

vivo互联网技术

分布式 分布式事务 分布式架构

基于区块链技术落地应用开发-食品溯源

13828808769

线程上下文切换,这些是你需要掌握的

田维常

系统上下文

话题讨论 | go、php 、java、python、cpp谁才能成为后端的主流

sinsy

Java c++ php 话题讨论 Go 语言

第七周总结

小兵

花火交易所APP软件系统开发(现成)

系统开发

突破容量极限:TiDB 的海量数据“无感扩容”秘籍

京东科技开发者

分布式数据库 #TiDB

第十一周 安全稳定总结

蓝黑

极客大学架构师训练营

阿里巴巴内部秘密培养的“Java架构师养成计划”图谱曝光,全是干货!

Java架构追梦

Java 学习 架构 面试 阿里巴巴人才培养计划

话题讨论 | 程序员摸鱼的时候都喜欢干些什么

soolaugust

话题讨论

我是程序员,我用这种方式铭记历史

kokohuang

Hexo GitHub Pages python 爬虫 中国历史 铭记历史

话题讨论 | 作为开发你是如何阅读源码的?

程序员小航

话题讨论

智慧公安情报指挥合成作战管控平台开发

t13823115967

智慧公安情报研判系统开发 智慧公安 合成作战管控平台

阿里云Lindorm与Intel、OSIsoft共建IT & OT超融合工业数据云

许力

数据库 大数据 IoT 工业互联网 工业物联网

《写给大忙人看的JAVA核心技术》.pdf

田维常

电子书

话题讨论 | 2020年你有什么推荐的书

soolaugust

话题讨论

低成本快速上链 智臻链开放联盟网络正式对外开放

京东科技开发者

区块链 京东

教你用Python自制拼图小游戏,轻松搞定熊孩子

华为云开发者联盟

Python 游戏 拼图

探秘密码学:深入了解对称加密与密钥协商技术

京东科技开发者

网络安全 密码学

架构师训练营第 1 期第 11 周总结

owl

极客大学架构师训练营

架构师训练营第 1 期第 11 周作业

owl

极客大学架构师训练营

源码深度解析 Handler 机制及应用

vivo互联网技术

android 客户端开发

什么是工作流?工作流有什么作用?怎样配置工作流程?

Marilyn

敏捷开发 工作流

话题讨论 | 深入浅出Linux内存管理,图解物理内存和虚拟内存

程序员柠檬

话题讨论

云计算领域-杨明越加入InfoQ协作平台

杨明越

Spring 源码学习 08:register 注册配置类

程序员小航

Java spring 源码 源码阅读

App自动化《元素定位方式、元素操作、混合应用、分层设计、代码方式执行Pytest 命令》

清菡软件测试

App

公安情报研判管控分析平台建设解决方案

t13823115967

智慧公安情报研判系统开发 智慧公安 情报研判管控分析平台

第十一周 安全稳定作业

蓝黑

极客大学架构师训练营

KMP —— 字符串分析算法

三钻

算法 大前端 KMP

DMLC:最大开源分布式机器学习项目_GitHub_张天雷_InfoQ精选文章