写点什么

DMLC:最大开源分布式机器学习项目

  • 2015-06-04
  • 本文字数:852 字

    阅读完需:约 3 分钟

为了实现分布式机器学习领域中代码的共享与共同开发,分布式机器学习社区(DMLC)近日正式发布。作为一个开源项目,DMLC 的相关代码直接托管在 GitHub 中,并采用 Apache2.0 协议进行维护。DMLC 项目的发起者陈天奇怪(网名)表示,项目最初的想法是减少分布式机器学习开发的成本以及新算法被大家接受测试的时间。目前,该项目已经集成了XGBoost、CXXNET 及Minerva 等机器学习库与rabit 和参数服务器等系统组件。接下来,本文就对这些基础库及组件进行简单介绍。

XGBoost 是一个大规模、分布式的通用 Gradient Boosting(GBDT、TBRT 或者 GBM)库。它在 Gradient Boosting 的框架下实现了 GBDT 和广义线性模型等机器学习算法。通过采用分布式计算方法,XGBoost 能够明显加快算法中迭代运算的速度。而作为一个快速、精确的分布式深度学习框架, CXXNET 主要具有轻量、支持多 GPU 和分布式并行系统、非常好的可扩展性以及与其他语言之间的接口清晰等特性。它使用 mshadow 库为用户提供了良好的编程体验和高效的工作能力。与 CXXNET 不同的是, Minerva 提供了一个高效灵活的并行深度学习引擎。它提供了一个类似 Numpy 的 NDarray 编程接口,并支持 Python 和 C++ 语言。其天然的并行性保证了其能够高效地利用多 GPU 进行相关计算。

rabit 是一个提供 Allreduce 和 Broadcast 容错接口的轻量通信框架。它简化了 MPI 的设计,在 Allreduce 和 Boradcast 操作的基础上加入了容灾的支持。其最大的特点在于可移植、可扩展以及非常可靠。另外一个通信框架——参数服务器(Parameter Server),主要负责对 XGBoost 等应用提供分布式的系统支持。它支持工作机与服务器之间的异步、零拷贝键值对的通信。异步的参数服务器接口加上同步的 Rabit 接口基本能够满足各种分布式机器学习算法中的通信需求。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。

2015-06-04 09:4511657
用户头像

发布了 268 篇内容, 共 137.2 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

TinyEngine 2.8 正式上线:AI能力就位、Docker部署更高效!

华为云开发者联盟

AI 开发者 华为云 华为云开发者联盟

YashanDB数据库在云计算环境中的最佳实践

数据库砖家

YashanDB数据库支持的编程语言与开发环境详解

数据库砖家

YashanDB数据库支持的实时数据分析与处理技术

数据库砖家

当Playwright遇见MCP,AI智能体实现自主化UI回归测试

测吧(北京)科技有限公司

YashanDB数据库在政府公共数据管理中的应用

数据库砖家

YashanDB数据库诊断与性能调优经验分享

数据库砖家

YashanDB数据库支持的编程语言及使用方法

数据库砖家

YashanDB数据库支持的实时数据流处理架构解析

数据库砖家

AI技术在教学资源网中的应用

北京木奇移动技术有限公司

软件外包公司 AI技术应用 教学资源网

gRPC不是银弹:为内网极致性能,如何设计自己的RPC协议?

poemyang

高并发 网络协议 RPC RPC架构

CST软件如何在同一个TS Block中导入多组S参数

思茂信息

cst 电磁仿真 cst仿真软件 CST Studio Suite

YashanDB数据库在智能制造中的应用潜力

数据库砖家

YashanDB数据库在制造业数字化转型中的应用价值

数据库砖家

YashanDB数据库在智能城市建设中的应用探索

数据库砖家

YashanDB数据库支持的动态权限管理功能详解

数据库砖家

YashanDB数据库支持的多语言开发环境介绍

数据库砖家

小度赋能“苏超”推出智能体“i苏超”,AI重塑体育资讯与服务体验

科技大数据

YashanDB数据库在企业信息化建设中的作用

数据库砖家

YashanDB数据库在物联网数据处理中的应用潜力

数据库砖家

YashanDB数据库在物流行业的智能调度系统应用研究

数据库砖家

YashanDB数据库在政府机构的数据治理应用

数据库砖家

YashanDB数据库支持的异构数据源整合技术介绍

数据库砖家

“人工智能+”再提速 | 狄耐克以人工智能为翼,赋能企业高质量发展新篇章

新消费日报

YashanDB数据库在物流管理系统中的高效应用

数据库砖家

YashanDB数据库在医疗行业的数据管理应用实例分析

数据库砖家

YashanDB数据库在云计算环境中的应用与优化技巧

数据库砖家

以数生智,以智驭数:GenAI新常态下的企业数据之道 | 矩阵起源产品发布会重磅启幕

MatrixOrigin

践行“人工智能+”行动,和鲸携手北京中医药大学管理学院成功举办医工融合人才培养与实验室建设研讨会

ModelWhale

医工融合 北京中医药大学 人工智能+

YashanDB数据库支持的机器学习数据模型应用

数据库砖家

YashanDB数据库支持的编程语言及环境

数据库砖家

DMLC:最大开源分布式机器学习项目_GitHub_张天雷_InfoQ精选文章