写点什么

京东大模型蒸馏技术登上 Nature,推理平均提效 30%

  • 2025-05-15
    北京
  • 本文字数:1273 字

    阅读完需:约 4 分钟

大小:674.09K时长:03:50
京东大模型蒸馏技术登上Nature,推理平均提效30%

5 月 15 日,京东探索研究院论文《Omniforce:以人为中心的、赋能大模型的、云边协同的自动机器学习系统》发表于 Nature 旗下期刊 npj Artificial Intelligence,该项研究提出了一种在开放环境场景中训练、更新大模型,并与小模型协同部署的系统与方法,成为国内首个系统性解决开放环境下大模型开发效率难题并获国际顶刊认证的研究成果。该技术通过模型蒸馏、数据治理、训练优化与云边协同四大创新,将大模型推理效率平均提升 30%,训练成本降低 70%


京东大模型开发计算技术,推理平均提效 30%


企业将大模型应用付诸实践,面临着诸多卡点,一方面进入大模型应用门槛高,另一方面模型训练与推理效率低。


京东大模型开发计算技术,能支持企业的模型开发训练及生产,让庞大、重型的 AI 模型“瘦身”成精悍的小模型,精华依旧,效率大增,瘦身不降智。既能节省算力资源,加速推理,还能适应多平台,广泛部署到更多平台上。


论文中提出了四个创新方法:

  • 模型蒸馏,采用动态分层蒸馏技术,特别是在预训练阶段进行蒸馏,调整仅 0.5%的参数实现低资源场景下的高效训练,减少大型模型的部署成本。

  • 数据治理,提出跨领域数据动态采样算法,自动混合不同领域数据,并引入隐私保护和主动学习技术,提升大模型泛化能力。

  • 训练优化,使用贝叶斯优化(BO)框架进行超参数优化和架构搜索,尤其是擅长处理离散空间,MPMD 场景下资源利用率提升 40%。

  • 云边协同,支持在云端进行模型搜索和训练,边缘设备负责部署和推理,并利用两阶段压缩策略以适应资源限制,提升云边协作的高效性。



值得一提的是,该平台还可支持京东大模型、Llama、DeepSeek 等多个模型的蒸馏、推理。在模型蒸馏层面,效果较同量级模型有明显提升,以京东大模型为例,蒸馏后的大模型 Livebench 提升 14 分。大量的实验结果也证明有效性和效率,推理平均提效 30%,训练成本平均降低 70%

JoyBuild 大模型开发计算平台,让模型训练与应用更普惠


这套京东沉淀下来的大模型开发计算的技术,支撑了 JoyBuild 大模型开发计算平台,广泛服务行业用户。

JoyBuild 能够为客户的大模型开发和行业应用开发,提供定制化解决方案。JoyBuild 支持各类模型的调优开发,内置 20 余种开源模型和丰富的数据集,并提供 100 余种算法和工具链,帮助企业根据自身业务特征,将通用模型迅速转化为专业模型,一站式应用大模型。


现在,不到一周时间,企业即可完成从数据准备、模型训练到模型部署的全流程;之前需要 10 余人的科学家团队工作,现在只需要 1~2 个算法人员;通过平台模型加速工具优化,节约 90%的推理成本。


京东丰富的业务场景,还为平台上的基础大模型提供具体的行业应用场景,加速基于大模型的商业化落地。在行业知识库之外,JoyBuild 沉淀了京东自己的零售、物流、健康、金融等行业 Know-How,可应用于供应链优化、智能客服、营销内容生成等各类场景,加速模型普惠。

 

京东给出的大模型解法并不是“黑箱”,而是一条解决大模型训练效率及应用问题的通用路径,是真正的“授之以渔”,对学术界、产业界均有广泛参考价值。未来,京东将进一步提升大模型开发与计算效率,让中小型和大型企业都能低成本、高效构建专属 AI 应用,助推 AI 规模化应用落地。

2025-05-15 18:067018

评论

发布
暂无评论

【LeetCode】最大升序子数组和Java题解

Albert

LeetCode 10月月更

【Nacos源码之配置管理 五】为什么把配置文件Dump到磁盘中

石臻臻的杂货铺

nacos 10月月更

java培训与线上自学哪个比较好

小谷哥

深度解密 OpenMLDB 毫秒级实时在线特征计算引擎

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

打造友邻式多元生态,支撑工商银行、平安科技、中国人寿财险、杭州银行的创新实践

TiDB 社区干货传送门

数据库前沿趋势

一个 ExpressionChangedAfterItHasBeenCheckedError 错误的解决过程

汪子熙

typescript 前端开发 angular web开发 10月月更

Surpass Day——Java面向对象的创建和使用

胖虎不秃头

Java 10月月更 se

Surpass Day——Java面向对象的封装、构造方法

胖虎不秃头

Java 10月月更 se

大数据ELK(十五):Elasticsearch SQL简单介绍

Lansonli

ES 10月月更

OpenMLDB Meetup No.5 会议纪要

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

刘奇:能否掌控复杂性,决定着分布式数据库的生死存亡

TiDB 社区干货传送门

数据库前沿趋势

Collections之ArrayList源码解读(七)

知识浅谈

ArrayList 10月月更

Python基础(十) | Numpy详细教程

timerring

Numpy库 10月月更

学习大数据培训是否比较靠谱

小谷哥

前端培训学习路线比较靠谱

小谷哥

前端培训机构选择需要注意什么?

小谷哥

Surpass Day——Java语法基础

胖虎不秃头

Java 10月月更 se

Python基础(九) | time random collections itertools标准库详解

timerring

random Collections time 10月月更

【Nacos源码之配置管理 六】集群模式下服务器之间是如何互相感知的

石臻臻的杂货铺

10月月更 nacso

TiKV缩容下线异常处理的三板斧

TiDB 社区干货传送门

实践案例 管理与运维 故障排查/诊断 扩/缩容

TiDB 数据冷热存储分离测试

TiDB 社区干货传送门

实践案例 管理与运维 新版本/特性解读 数据库架构设计

Redis--Redis集群、缓存穿透、缓存击穿、缓存雪崩

Java学术趴

10月月更

Python基础(八) | 万字详解深浅拷贝、生成器、迭代器以及装饰器

timerring

装饰器 Python Monad 迭代器 生成器 10月月更

大数据开发的方法有哪些

小谷哥

直播预告 | 第四范式Tech Day火热来袭,OpenMLDB 与你 8月11日线上见

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

OpenMLDB 开源一周年,感恩遇见

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

谈谈产品如何定位

产品海豚湾

产品经理 产品定位 商业洞察 10月月更 SaaS 产品

免费申请和使用IntelliJ IDEA商业版License指南

程序员欣宸

ide 10月月更 ieda

C++学习---cstdio的源码学习分析07-刷新文件流函数fflush

桑榆

c++ 源码分析 10月月更

OpenMLDB + OneFlow: 手把手教你快速链接特征工程到模型训练

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

开源星「001号」落地 OpenMLDB,欢迎登陆赢神秘大礼包!

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

京东大模型蒸馏技术登上Nature,推理平均提效30%_生成式 AI_李冬梅_InfoQ精选文章