2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

360 开源 XDML,超大规模数据与超高维特征机器学习计算平台

  • 2018-12-29
  • 本文字数:1480 字

    阅读完需:约 5 分钟

360开源 XDML,超大规模数据与超高维特征机器学习计算平台

在大数据时代,需要处理的数据都是 TB 级或 PB 级以上,机器学习模型的规模也在不断地增大,机器学习模型的参数的规模可以达到百亿甚至是千亿的级别,如此大的参数规模给现有的机器学习平台带来了前所未有的挑战。同时,高维稀疏数据对于模型的构建也带来了巨大的挑战。


人工智能取得了前所未有的发展,机器学习、深度学习中算法数量也在不断的增加。但是也带来了很多的问题:


  • 特征分析和变换中,工作量大、性能差、成本高等;

  • 难以处理超高维稀疏数据,超规模参数调优难度很大;

  • 目前业界实现的机器学习平台都有各种各样的问题,例如和 Hadoop 生态圈衔接较差,无法很好的与其衔接起来。这些问题一直阻碍着开发者的前行,亟需解决。


针对超大规模机器学习的场景,360 开源了内部的超大规模机器学习计算框架 XDML。XDML 是一款基于参数服务器(Parameter Server),采用专门缓存机制的分布式机器学习平台。它在 360 内部海量规模数据上进行了测试和调优,在大规模数据量和超高维特征的机器学习任务上,具有良好的稳定性,扩展性和兼容性。


GitHub 地址:https://github.com/Qihoo360/XLearning-XDML



XDML 架构设计图

XDML 特性

1. 提供特征分析与变换等功能模块


在现有的机器学习模型的构建中,特征生产与业务和数据高度相关,高度定制,工作量很大。特征分析与变换处理粒度过小,在大数据情形下性能较差,且缺乏一站式的特征分析与变换工具。XDML 能够最大程度地挖掘并行度,结合样本并行+特征并行+算子并行/融合/OnePass 化,显著提升特征工程的性能,支持 TB 级数据 10min 级分析,并且遵循 spark 标准接口。在包含数千个特征的稠密 benchmark 上进行特征分析与变换测试,性能较 Spark MLlib 提升 1000 多倍;XDML 也能很好地适应稀疏数据特征分析。


2. 实现常用的大规模数据量场景下的机器学习算法


超高维度的参数优化,对于开发者算法能力要求较高,而且工作量较大,需要大量的时间和精力进行调参工作。XDML 内化学界最新研究成果,引入南京大学李武军老师提出的全新优化算法 SCOPE,并重构了准线性模型,在效果保持稳定的同时,大幅加速收敛进程,显著提升模型与算法的性能。在 Benchmark 上,相比 LBFGS 性能提升 10 倍左右,相较于 SGD 性能提升 50 多倍。同时,XDML 还对接了一些优秀的开源成果和 360 公司自研成果,站在巨人的肩膀上,博采众长。


3. 充分利用现有的成熟技术,保证整个框架的高效稳定


在互联网领域,技术框架更新迭代十分迅速,XDML 可以与业界成熟的技术无缝衔接,整个框架具有高效的稳定性。


4. 完全兼容 hadoop 生态,和现有的大数据工具实现无缝对接,提升处理海量数据的能力


在 XDML 设计之初,就将与 Hadoop 生态无缝衔接作为其设计目标,解决了大规模高维数据的存储。XDML 具有与目前 Hadoop、Spark 等大数据框架无缝对接的能,同时替换 Spark 原生能力的性能/效果瓶颈,提供更好的大数据框架使用体验,将开发者从繁杂的工作中解脱出来,不必为数据、模型的存储大费周章。


5. 在系统架构和算法层面实现深度的工程优化,在不损失精度的前提下,大幅提高性能


在高维稀疏数据场景中,如何处理千亿级参数训练,百亿乃至千亿级别样本训练中模型的存储、数据如何传输、模型的更新等问题一直是业界急需解决的问题。XDML 具有模型的快速存储能力,高效的数据传输,从多个角度提升了高维稀疏数据场景中,提升模型的训练速度提升整体的性能。

结语

“从开源社区来,并回到开源社区去”一直是开源社区的精神。360 此次开源的内部超大规模机器学习计算框架 XDML,能够为开发者节约学习和操作时间,提高模型训练效率,具有良好的稳定性和兼容性,为开源社区提供了一件利器。


2018-12-29 14:385285
用户头像

发布了 1548 篇内容, 共 731.9 次阅读, 收获喜欢 2521 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

基于 eBPF 技术打造的 LightAPM 应用监控,效果如何

乘云数字DataBuff

监控 ebpf LightAPM

黑龙江二级等保:助力区域网络安全水平整体提升

等保测评

WPS 365联手小米芯片:守护百万研发文档安全,评审效率提速77%

极客天地

区块链Web3系统的开发费用

北京木奇科技有限公司

区块链开发 软件外包公司 web3开发

精彩抢先看!博睿数据将亮相第二十七届GOPS 全球运维大会上海站 !

博睿数据

借助人工智能提升工作效率,打造自己的智能体工作流

测试人

城市一张网,以数据之桥擎托未来

脑极体

AI

CST软件抗反射超材料SRR涂层 --- 反射系数,反射率,相位, Floquet,THz

思茂信息

cst CST软件 CST Studio Suite

Parameter ‘**‘ not found. Available parameters are [0, 1, param1, param2]解决办法

刘大猫

人工智能 云计算 大数据 算法 物联网

天润融通ZENAVA重磅发布:让AI成为客服和营销的核心生产力

天润融通

告别复杂代码!用Dify+Bright Data,可视化搭建高可靠AI数据抓取流水线

阿Q说代码

工作流 dify 亮数据

GPU 网络通信基础,Part 1(横向与纵向扩展;训练中的通信环节...)

Baihai IDP

AI gpu LLM GPU网络通信

AI 英语口语 APP 开发费用

北京木奇科技有限公司

软件外包公司 AI英语学习

什么是UDFScript用户自定义脚本

天翼云开发者社区

CDN

观测云产品更新 | 安全监测、监控器、管理、异常追踪、查看器等

观测云

产品迭代

“他她它”深度体验:京东的“万能”工具箱,装进一个有趣的“灵魂”

Alter

出海社交 AI助手

代码生成之外,AI 提效研发的“最短路径”在哪里?|DevChat Tester 产品手记

思码逸研发效能

研发效能 API测试 智能测试 API测试工具 思码逸

鸿蒙应用开发从入门到实战(十五):线性布局案例

程序员潘Sir

鸿蒙 HarmonyOS

大数据-107 Flink Apache Flink 入门全解:流批一体的实时计算引擎 从起源到技术特点的全面解析

武子康

Java 大数据 flink spark 分布式

哈尔滨等保测评:核心知识与实践要点

等保测评

哈尔滨等保测评:新兴技术适配下的安全升级

等保测评

如何使用极限网关实现 Elasticsearch 集群迁移至 Easysearch

极限实验室

elasticsearch Gateway 数据迁移 极限网关 easysearch

新闻速递丨Altair 与美国威奇托州立大学国家航空航天研究所签署战略备忘录,加速航空航天领域创新步伐

Altair RapidMiner

数字孪生 仿真 CAE hyperworks 航空航天

局域网聊天工具,一体化安全办公轻松管理

BeeWorks

即时通讯 IM 私有化部署

让GPU更轻盈 让推理更流畅|焱融YRCache双异步技术激活AI新价值

焱融科技

AI 大模型 推理模型 KVCache

智慧化商品运营:数据科学与人类创意的完美融合

第七在线

HSV - RGB 来点实际的

Miracle

云栖2025 | 人工智能平台 PAI 年度发布

阿里云大数据AI技术

人工智能 阿里云 云栖大会 PAI

重复对象:媲美Figma旋转复制,让UI设计更出彩!

职场工具箱

效率工具 设计师 figma ui设计 在线设计工具

一种CDN动态加速首次访问加速方法

天翼云开发者社区

CDN

360开源 XDML,超大规模数据与超高维特征机器学习计算平台_AI&大模型_InfoQ 中文站_InfoQ精选文章