【QCon】精华内容上线92%,全面覆盖“人工智能+”的典型案例!>>> 了解详情
写点什么

MIT 提出可压缩模型的 AI 框架,激励软件代理探索其环境

  • 2020-05-22
  • 本文字数:1853 字

    阅读完需:约 6 分钟

MIT 提出可压缩模型的AI框架,激励软件代理探索其环境

2020年国际学习表征会议(ICLR)接受的两篇论文中,MIT 的研究者提出了激励软件代理(agent)以探索其所处环境,以及修剪算法来提升 AI 应用程序性能的新方法。总的来说,这两种新方案可以促进工业、商业和家用自主机器人的发展;相比现有的竞品,这些方案不需要那么多的计算能力,但同时功能却更强大。

“好奇心”算法

一支团队提出了一种元学习算法,其可以生成 52,000 个探索算法,这些算法可以让代理更深入地探索自己的周围环境。他们探索了其中两种全新算法,并借此改善了一系列模拟任务的学习过程——这些任务包括让月球车登陆,以及用机械手臂抓起蚂蚁大小的机器人等。



图源 Alex Knight


这支团队的元学习系统首先选择一系列高级操作(基本编程,机器学习模型等等)来引导代理执行各种任务,包括记忆以前的输入、比较和对比当前和之前的输入、利用学习方法更改自己的模块等等。元学习系统从共计三十多种操作中,一次最多组合七种不同操作,从而生成了描述之前提到的 52,000 种算法的计算图。


测试所有的算法将花费数十年时间,所以研究者们首先将从代码结构就可以预测出其糟糕性能的算法排除在外。之后他们在一项基本的网格级导航任务中测试了最有希望的候选算法,该任务需要大量的探索,但计算量很小。表现良好的算法被列为新的基准,随后淘汰了一大堆候选算法。


研究团队表示他们使用了四台机器,搜索运行十多小时之后找到了最佳算法。总数超过一百的高性能算法中,前 16 种有用且新颖,性能可以与人工设计的算法相媲美,甚至还会更好。


研究者将前 16 个模型的优秀性能归因于它们都具备的两个探索特性。首先,代理会因为访问一个新地方而获得奖励,因为这样它们就更可能采取新的行动。其次,一个 AI 模型学习预测代理未来的状态,另一个模型则会回顾过去的状态,二者相辅相成以预测现在状态。这样的话,如果预测错误,则二者都会因发现新东西而受到奖励。


因为元学习进程会生成高级计算机代码作为输出,因此可以将这两种算法分解后查看其决策过程。MIT 研究生马丁·施耐德(Martin Schneider)在一份声明中称“人类可以阅读并解释我们生成的算法,但如果想要真正的理解代码,就需要对每一个变量和操作进行推演,并观察它们如何随着时间演变。”他与另一名研究生 Ferran Alet,MIT 计算机科学与电气工程教授 Leslie Kaelbling 及 Tomás Lozano-Pérez 共同撰写了这份研究论文。


“一方面我们借助计算机的能力来评估大量算法,另一方面我们利用了人类解释并改进这些算法的能力,将这二者结合起来设计算法和工作流程是一项很有趣的开放性挑战。”

缩小 AI 模型

在第二份研究中,一支 MIT 团队提供了一种可靠的,可以在资源受限的设备上运行的模型缩小框架。尽管团队还不能解释为何该框架表现如此出色,但不可否认的是,该压缩方法甚至比一些顶尖的压缩方法实现起来更容易且更快。


该框架是“彩票假设(Lottery Ticket Hypothesis)”的产物。论文显示如果在训练过程中能够确定正确的子模型(submodel),那么即使减少了 90%的参数,模型依旧表现良好。研究的合著者,同时也是“彩票假设”的提出者,建议将模型重新“带回”到早期训练阶段,不带任何参数(例:根据已有数据估算模型内部配置变量),然后再重新训练模型。模型修剪方法通常会导致模型精度随着时间变化逐渐降低,但是这种方式却可以将模型精度还原到最初始的状态。


这为更广阔的 AI 研究领域带来了好消息,为解决该领域的可访问性和可持续性问题带来了希望。去年六月(2019 年 6 月),马赛诸塞州大学阿默斯特分校的研究者发布了一项研究,估算出训练并搜索某模型需要花费的电量,这些电量伴随着约 626,000 磅的二氧化碳排放,相当于美国普通汽车服役周期排放量的近五倍。根据最近的一份Synced报告,华盛顿大学用于生成/检测假新闻的 Grover 机器学习模型在两周的训练中花费了 25,000 美元。


MIT 助理教授韩松表示“很高兴看到新的修剪算法和重新训练技术的不断发展”。韩松建立了行业标准修剪算法 AMC,但并未参与到前文提到的这项研究之中。他最近与他人合著了一篇关于如何提升大型模型的 AI 训练效率的论文,论文中提到的模型包含许多可以针对各种平台定制预训练的子模型。 “(该模型)可以让更多的人得以利用高性能 AI 应用程序。”


MIT 博士学生 Alexa Renda 与 MIT 助理教授/博士学生 Jonathan Frankle 合著了该项研究。二人都是 MIT 计算机科学与人工科学实验室(CSAIL)成员。


延伸阅读:


https://venturebeat.com/2020/04/28/mit-presents-ai-frameworks-that-compress-models-and-encourage-agents-to-explore/


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2020-05-22 15:351089
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 489.3 次阅读, 收获喜欢 1965 次。

关注

评论

发布
暂无评论
发现更多内容

ABBYY FineReader PDF 15 for Mac(ocr文字识别软件)v15.2.13中文激活版

iMac小白

Ulysses for Mac(让写作变得更加简单) v33.1免激活版

影影绰绰一往直前

创新驱动数字经济发展,融云获评「2023 数字经济隐形独角兽」

融云 RongCloud

数字化转型 数字经济 办公 融云 政企

ubuntu20.4服务器安装mysql社区版并开放3306端口

百度搜索:蓝易云

MySQL 云计算 Linux ubuntu 运维

Radio Silence for mac(简单好用的防火墙)v3.2激活版

iMac小白

场外白名单达到1200U?Solana 生态铭文跨链桥 Sobit 是何神圣?

大瞿科技

Lightroom Classic 2022 for Mac中文破解版:轻松分享你的作品

影影绰绰一往直前

IPQ6000 IPQ6010 VS IPQ5018|A Comprehensive Comparison: Evaluating Wallys' WiFi 6 SoCs Offering

wallyslilly

IPQ6010 IPQ6000 ipq5018

TI 专访 Merlin Protocol:构建在比特币网络上的资产适配协议

中本聪研究院

BERT实现多标签文本分类:强大模型的应用与展望

百度开发者中心

自然语言处理 大模型 LLM

RWKV: 轻松实现大模型本地私有化部署

百度开发者中心

人工智能 深度学习 大模型

赛博威新一代TPM营销费用管理指南——费用管理类型篇

赛博威科技

数字化转型 营销费用管理 赛博威 销售费用管理 费用管理类型

RapidClick for mac(鼠标自动点击软件)v1.5.1激活版

iMac小白

语音数据集:智能语音技术的基石与挑战

来自四九城儿

WAVE SUMMIT+ 2023 今日开场!奉上完整预告和参会指南,今天见!

飞桨PaddlePaddle

人工智能 深度学习 开发者 WAVE SUMMIT

【Linux】硬件性能测试工具安装。

百度搜索:蓝易云

云计算 Linux 运维 服务器 云服务器

做好数据管理体系 发挥企业数据乘数效应

用友BIP

数据

mac电脑强大电脑风扇转速管理:Macs Fan Control Pro激活码中文版

胖墩儿不胖y

Mac软件 电脑风扇软件 风扇转速软件

火山引擎边缘云获“2023边缘计算年度领航企业”及“最佳CDN创新企业”等多项荣誉

火山引擎边缘云

CDN 边缘计算 边缘云 CDN技术

软件测试/测试开发丨SQL多表查询 学习笔记

测试人

sql 软件测试 测试开发

ETLCloud X 明道云实现无缝数据连接

RestCloud

数据同步 ETL 明道云

OmniGraffle Pro for mac(专业图表绘制软件) v7.22.4激活版

影影绰绰一往直前

知识图谱技术在金融领域的分析和应用

悦数图数据库

图数据库 知识图谱

如何在敏捷项目中实现高效测试?

敏捷开发

项目管理 敏捷开发 测试左移 测试自动化 bug管理

北京师范大学心理学部副部长骆方:智能化人才测评技术进展

用友BIP

智能化人才测评

Eagle for Mac(图片管理工具)v1.9.2中文版

iMac小白

MAMP PRO for Mac v6.8.1永久激活版 专业的Web开发环境

iMac小白

软件开发

Geek_8da502

从BERT到ChatGPT:预训练大模型的演变与突破

百度开发者中心

人工智能 nlp 大模型

将 Python 和 Rust 融合在一起,为 pyQuil® 4.0 带来和谐

展菲

rust Python Monad

软通咨询助力某新能源头部企业迈向高效数智化时代,塑造行业新典范

软通咨询

数据智能 数字化咨询

MIT 提出可压缩模型的AI框架,激励软件代理探索其环境_AI&大模型_Kyle Wiggers_InfoQ精选文章