写点什么

DeepMind 发布 JEST 算法,AI 模型训练耗能降低十倍

  • 2024-07-09
    北京
  • 本文字数:1052 字

    阅读完需:约 3 分钟

DeepMind发布JEST算法,AI模型训练耗能降低十倍

AI 大模型超全落地场景&金融应用实践,8 月 16 - 19 日 FCon x AICon 大会联诀来袭、干货翻倍!

近日,谷歌的人工智能研究实验室 DeepMind 发表了关于训练 AI 模型的新研究——多模态对比学习与联合示例选择(JEST)。


JEST 算法可以将训练速度和能源效率提高一个数量级。DeepMind 声称,“我们的方法超越了最先进的模型,迭代次数减少了 13 倍,计算量减少了 10 倍。”


论文链接:

https://arxiv.org/pdf/2406.17711


有网友激动地表示:“我没想到它来得这么快。对于模型来说,选择训练数据的能力是很强大的,因为这可以使得训练变得十分容易。你不需要再去猜测什么是高质量的训练数据,因为你有一个专门学习它的模型。”


JEST 算法以一种简单的方式打破了传统的 AI 模型训练技术。典型的训练方法侧重于对单个数据点的学习和训练,而 JEST 则是对整个批次进行训练,优化了数据的整体学习效果。


多模态对比学习能够直接揭示数据之间的交互,通过选择高质量的子批次显著提高训练效率。


  • 多模态数据交互:利用不同模态(图像、文本等)间的相互作用增强数据的表征力。例如,将图像中的对象与其描述文本相匹配,增强模型的理解。


  • 对比目标:最大化相同概念的不同模态表示(如图像和对应文本)之间的相似度,同时最小化不相关模态之间的相似度。通过 sigmoid-contrastive loss 等对比损失函数实现。


  • 学习效率的提升:多模态学习方法使 JEST 算法从数据交互中学习到更复杂的数据表示,提高了学习效率和模型性能。


联合示例选择通过评估数据子批次的整体可学习性,从大批次中选择出最有学习价值的子批次。


  • 可学习性评分:结合当前模型的损失和预训练模型的损失,优先选择当前模型尚未学会但预训练模型已学会的数据。


  • 评分函数:结合预训练模型的易学性评分和当前学习模型的难学性评分,得到综合的可学习性评分。



但是,这个系统完全依赖于其训练数据的质量,如果没有高质量的数据集,引导技术就会分崩离析。对于业余爱好者或者业余 AI 开发者来说,JEST 比其他方法要更难以掌控。


近年来,人工智能技术迅猛发展,大规模语言模型(LLM)如 ChatGPT 的应用日益广泛。然而,这些模型的训练和运行消耗了大量能源。研究称,微软用水量从 2021 年到 22 年飙升了 34%,ChatGPT 每处理 5-50 个提示就会消耗接近半升水。在这样的背景下,JEST 技术的出现显得尤为重要。


参考链接:

https://www.tomshardware.com/tech-industry/artificial-intelligence/google-claims-new-ai-training-tech-is-13-times-faster-and-10-times-more-power-efficient-deepminds-new-jest-optimizes-training-data-for-massive-gains

https://the-decoder.com/google-deepminds-jest-speeds-up-ai-training-by-13x-while-slashing-computing-needs/

公众号推荐:

AIGC 技术正以惊人的速度重塑着创新的边界,InfoQ 首期《大模型领航者AIGC实践案例集锦》电子书,深度对话 30 位国内顶尖大模型专家,洞悉大模型技术前沿与未来趋势,精选 10 余个行业一线实践案例,全面展示大模型在多个垂直行业的应用成果,同时,揭秘全球热门大模型效果,为创业者、开发者提供决策支持和选型参考。关注「AI前线」,回复「领航者」免费获取电子书。

2024-07-09 10:403404

评论

发布
暂无评论

微信朋友圈的复杂度

爱晒太阳的大白

LabVIEW控制Arduino驱动1602液晶显示屏(基础篇—10)

不脱发的程序猿

单片机 LabVIEW Arduino LIAT 驱动1602液晶显示屏

FactoryMethodPattern-工厂方法模式

梁歪歪 ♚

设计模式

linux之curl使用技巧

入门小站

TreeSet源码分析

zarmnosaj

5月月更

值得收藏:当向数据库导入大量数据时,mysql主键唯一键重复插入,如何丝滑操作并不导入重复数据呢

迷彩

MySQL 数据库 大数据运维 5月月更

贪心算法:Dota2 参议院 🏯

空城机

LeetCode 5月月更

LabVIEW控制Arduino实现舵机联控(基础篇—9)

不脱发的程序猿

单片机 LabVIEW Arduino LIAT 舵机联控

研发效能团队规模、职能划分和优劣势分析概述(第一篇)

laofo

DevOps cicd 研发效能 组织架构 平台建设

PrototypePattern-原型模式

梁歪歪 ♚

设计模式

LabVIEW控制Arduino实现示波器(基础篇—7)

不脱发的程序猿

单片机 LabVIEW Arduino LIAT Arduino实现示波器

Java设计模式系列学习

梁歪歪 ♚

设计模式

西昊智能家具2022新品发布,硬实力为健康撑腰

Geek_2d6073

WPF|快速添加新手引导功能(支持MVVM)

沙漠尽头的狼

C# WPF 新手引导

LabVIEW控制Arduino实现模拟数据采集(基础篇—8)

不脱发的程序猿

单片机 LabVIEW Arduino LIAT 模拟数据采集

SingletonPattern-单例模式

梁歪歪 ♚

设计模式

在线HTML转Javascript工具

入门小站

工具

2.4 航线图介绍

Geek_古藤模根

图数据库实战 Gremlin

LabVIEW控制Arduino实现RGB调色灯(基础篇—6)

不脱发的程序猿

单片机 LabVIEW Arduino LIAT RGB调色灯

AbstractFactoryPattern-抽象工厂模式

梁歪歪 ♚

设计模式

借势双碳东风:干“实事”的“虚拟”电厂

脑极体

【安全】揭秘小白如何从0到1逆袭成为安全工程师

网络安全学海

网络安全 安全 信息安全 渗透测试

BuilderPattern-建造者模式

梁歪歪 ♚

设计模式

在线字符或文本转二进制工具

入门小站

工具

架构实战营-模块2作业

Elvis FAN

密码学系列之:X.690和对应的BER CER DER编码

程序那些事

密码学 程序那些事 5月月更

朋友圈架构设计

intelamd

Crypto们纷纷聚焦“Building platonic”,PlatoFarm是解决方案吗?

股市老人

Crypto巨头们ALL IN元宇宙,PlatoFarm或能突围

BlockChain先知

Vue框架学习笔记【day二】

恒山其若陋兮

5月月更

Angular 项目里使用 scss 文件的一些技巧

汪子熙

typescript 前端 前端开发 angular 5月月更

DeepMind发布JEST算法,AI模型训练耗能降低十倍_AI&大模型_赵明华_InfoQ精选文章