写点什么

京东大模型蒸馏技术登上 Nature,推理平均提效 30%

  • 2025-05-15
    北京
  • 本文字数:1273 字

    阅读完需:约 4 分钟

大小:674.09K时长:03:50
京东大模型蒸馏技术登上Nature,推理平均提效30%

5 月 15 日,京东探索研究院论文《Omniforce:以人为中心的、赋能大模型的、云边协同的自动机器学习系统》发表于 Nature 旗下期刊 npj Artificial Intelligence,该项研究提出了一种在开放环境场景中训练、更新大模型,并与小模型协同部署的系统与方法,成为国内首个系统性解决开放环境下大模型开发效率难题并获国际顶刊认证的研究成果。该技术通过模型蒸馏、数据治理、训练优化与云边协同四大创新,将大模型推理效率平均提升 30%,训练成本降低 70%


京东大模型开发计算技术,推理平均提效 30%


企业将大模型应用付诸实践,面临着诸多卡点,一方面进入大模型应用门槛高,另一方面模型训练与推理效率低。


京东大模型开发计算技术,能支持企业的模型开发训练及生产,让庞大、重型的 AI 模型“瘦身”成精悍的小模型,精华依旧,效率大增,瘦身不降智。既能节省算力资源,加速推理,还能适应多平台,广泛部署到更多平台上。


论文中提出了四个创新方法:

  • 模型蒸馏,采用动态分层蒸馏技术,特别是在预训练阶段进行蒸馏,调整仅 0.5%的参数实现低资源场景下的高效训练,减少大型模型的部署成本。

  • 数据治理,提出跨领域数据动态采样算法,自动混合不同领域数据,并引入隐私保护和主动学习技术,提升大模型泛化能力。

  • 训练优化,使用贝叶斯优化(BO)框架进行超参数优化和架构搜索,尤其是擅长处理离散空间,MPMD 场景下资源利用率提升 40%。

  • 云边协同,支持在云端进行模型搜索和训练,边缘设备负责部署和推理,并利用两阶段压缩策略以适应资源限制,提升云边协作的高效性。



值得一提的是,该平台还可支持京东大模型、Llama、DeepSeek 等多个模型的蒸馏、推理。在模型蒸馏层面,效果较同量级模型有明显提升,以京东大模型为例,蒸馏后的大模型 Livebench 提升 14 分。大量的实验结果也证明有效性和效率,推理平均提效 30%,训练成本平均降低 70%

JoyBuild 大模型开发计算平台,让模型训练与应用更普惠


这套京东沉淀下来的大模型开发计算的技术,支撑了 JoyBuild 大模型开发计算平台,广泛服务行业用户。

JoyBuild 能够为客户的大模型开发和行业应用开发,提供定制化解决方案。JoyBuild 支持各类模型的调优开发,内置 20 余种开源模型和丰富的数据集,并提供 100 余种算法和工具链,帮助企业根据自身业务特征,将通用模型迅速转化为专业模型,一站式应用大模型。


现在,不到一周时间,企业即可完成从数据准备、模型训练到模型部署的全流程;之前需要 10 余人的科学家团队工作,现在只需要 1~2 个算法人员;通过平台模型加速工具优化,节约 90%的推理成本。


京东丰富的业务场景,还为平台上的基础大模型提供具体的行业应用场景,加速基于大模型的商业化落地。在行业知识库之外,JoyBuild 沉淀了京东自己的零售、物流、健康、金融等行业 Know-How,可应用于供应链优化、智能客服、营销内容生成等各类场景,加速模型普惠。

 

京东给出的大模型解法并不是“黑箱”,而是一条解决大模型训练效率及应用问题的通用路径,是真正的“授之以渔”,对学术界、产业界均有广泛参考价值。未来,京东将进一步提升大模型开发与计算效率,让中小型和大型企业都能低成本、高效构建专属 AI 应用,助推 AI 规模化应用落地。

2025-05-15 18:066686

评论

发布
暂无评论

新思科技:部署数据安全战略,加强安全管理和隐私保护

InfoQ_434670063458

数据安全 新思科技

ECIC演讲精华|如何构建云原生应用下的高性能持久化存储?

焱融科技

技术 分布式 云原生 高性能 存储技术

Compose 中的图形

Changing Lin

9月日更

5个非常重要的数据Oceanbase,TiDB,Cassandra,RocksDB,MemDB

hanaper

教你实现一个朴实的Canvas时钟效果

华为云开发者联盟

标签 函数 canvas 时钟

【Flutter 专题】47 图解新的状态管理 Provider (二)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 9月日更

翻转未来!钢铁之城重添色彩

脑极体

源码解读Dubbo分层设计思想

vivo互联网技术

Apache dubbo 服务器 spi

华为云首席产品官方国伟:没有人拥有看到未来的水晶球,云上突围之路如何走?

华为云开发者联盟

云计算 云原生 数字化转型 华为云 伙伴云

大一 PingCAP、大二 JetBrains,专访 00 后开发者:千里冰封

郭旭东

开发者 采访 大学生

小白也能看懂的dubbo3应用级服务发现详解

捉虫大师

dubbo 服务发现 Dubbo3

Python中如何优雅的使用assert断言

wangkx

Python assert

一个通用即时通讯(IM)系统的设计

OpenIM

在线JSON转io-ts工具

入门小站

工具

一行Java代码实现游戏中交换装备

华为云开发者联盟

Java 线程 游戏 Exchanger JDK 1.5

SaaS 102 | 做 SaaS 产品应该如何做决策?

Teddy Chan

创业 数据 SaaS 决策 电商SaaS

谈 C++17 里的 Visitor 模式

hedzr

c++ 设计模式 Design Patterns GoF设计模式

【LeetCode】栈的最小值Java题解

Albert

算法 LeetCode 9月日更

update 没有索引导致业务崩了,老板骂了一个小时

华为云开发者联盟

数据库 innodb 事务 索引 update 语句

Python——lambda 函数

在即

9月日更

数据规范的重要性

奔向架构师

数据治理 9月日更

[资源收藏]高质量外文博客(持续更新)

baiyutang

9月日更

潜入培训机构,顺出来一份价值 2.2W 的 Python 人工智能大纲

梦想橡皮擦

9月日更

手撸二叉树之左子树之和

HelloWorld杰少

9月日更

敬自由:破壁人华为,开启PC的无界探索

脑极体

数据库为何又如何走向分布式?

多颗糖

MySQL 数据库 分布式 raft TiDB

云随想二:云时代,你如何采购软件?

FLASH

云原生 采购软件

macOS 制作 linux 启动盘

耳东@Erdong

Mac 软件 9月日更

聊聊新工具Hutool

卢卡多多

POI 数据导入 9月日更

密码学系列之:海绵函数sponge function

程序那些事

密码学 程序那些事 海绵函数

计算机操作系统学习笔记 | 操作系统功能

Regan Yue

操作系统 9月日更

京东大模型蒸馏技术登上Nature,推理平均提效30%_生成式 AI_李冬梅_InfoQ精选文章