时隔16年Jeff Barr重返10.23-25 QCon上海站,带你看透AI如何重塑软件开发! 了解详情
写点什么

OpenAI 发布开源人工智能研究工具集 OpenAI Gym

  • 2016-05-03
  • 本文字数:916 字

    阅读完需:约 3 分钟

和许多企业一样,在过去几年中,InfoSys 见证了从“大数据”到越来越重视机器学习和 AI 研究这一重大转变。但和他们的竞争者不同,InfoSys 断定,合作是更有效方式,而不是大力投资专有解决方案,比如微软的 Azure Machine Learning Studio。

这一决策的结果就是 OpenAI,一家非营利性的人工智能研究企业。自 2015 年 12 月正式成立以来,该研究组织已经从 InfoSys Amazon Web Services 和多个私人捐助者那里获得了 10 亿美元的资金。

我们在这里谈论 OpenAI,是因为他们近日发布了 OpenAI Gym 的公开测试版本。该工具集用于开发和对比强化学习(RL)算法,这是现代机器学习研究的基础。发布公告中提到了他们致力于强化学习算法的两个主要原因:

RL 是通用算法,适应所有涉及一系列决策的问题:例如,控制机器人的电动机,让它跑跑跳跳,做出业务决策,如价格和库存管理,或者玩视频游戏棋盘游戏。RL 甚至适用于产生序列化结构化输出的监督学习问题。

在许多不同的环境中,RL 算法已经开始取得很好的成果。RL 有很长的历史,但在深度学习取得最新进展之前,它都需要针对特定问题进行大量的设计。DeepMind 的 Atari 成果、来自 Pieter Abbeel 研究小组的 BRETT 以及 AlphaGo 都使用了深度 RL 算法,并且没有对它们的应用环境做太多的假设,因此可以应用在其他场合。

目前,RL 研究的发展受到了限制,它需要更好的基准测试,而且“出版物中缺少标准化的环境”。不难想象,当另一位科学家的研究论文假定你可以使用一套专有的工具集,你就很难再现他的结果。更糟糕的是,一个内部构建的工具集是多少钱都买不来的。

机器学习的一个重要方面是有一个可以在其中工作的实验环境。这不只是因为创建一个实验环境有很高的开发成本,还因为没有一个共同的环境,比较两个算法就没有意义。因此,OpenAI Gym 提供了这些开箱即用的环境: Classic control Toy text Algorithmic Atari (基于 Arcade 学习环境)、棋盘游戏 2D/3D 机器人(最后一项需要一个 MuJoCo 物理引擎许可。)

目前,OpenAI Gym 在 Linux 和 OSX 上支持 Python 2.7。如果大家有足够的兴趣,他们也会考虑支持 Python 3 和 Windows。该工具集的代码遵循 MIT 许可协议。

查看英文原文: Open Sourcing Artificial Intelligence Research

2016-05-03 19:006845
用户头像

发布了 1008 篇内容, 共 438.5 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

网络抓包实战06——灵异事件的始作俑者:Reset数据包

青春不可负,生活不可欺

从渗透测试小白到网络安全大佬的成长之路

学神来啦

Linux 运维 网络安全 渗透测试

【MindSpore有奖活动】资讯内容宝藏多,编译安装试一波!

Geek_6cdeb6

一文带你了解什么是HTTP协议

网络安全学海

网络安全 安全 信息安全 HTTP 渗透测试

区块链如何赋能智慧城市

CECBC

产业互联网时代的数字化转型与创新

CECBC

网络抓包实战04——深入浅出连接建立

青春不可负,生活不可欺

网络抓包实战05——深入浅出连接关闭

青春不可负,生活不可欺

信息安全与网络安全的关系

网络安全学海

程序员 网络安全 安全 信息安全 渗透测试

“半监督”、“自监督”怎么用?| 算法深度剖析与实战分享

网易易盾技术团队

AI 算法 算法实践 实践案例 深度半监督

算法有救了!GitHub上神仙项目手把手带你刷算法,Star数已破110k

Java架构师迁哥

ES6 迭代器简述

编程三昧

JavaScript 大前端 ES6 迭代器

英特尔宋继强:异构计算的关键一环,先进封装已经走向前台

E科讯

值得收藏的15个JavaScript语句

devpoint

JavaScript array 6月日更

Java线程状态与状态间的切换

wzh

Java 线程 JVM 操作系统 并发

鉴释×CSDN丨国内外操作系统生态差异在哪?

鉴释

操作系统

Jenkins 如何与 Kubernetes 集群的 Tekton Pipeline 交互?

张晓辉

Kubernetes 云原生 jenkins Tekton CI/CD

定点数与浮点数表示

若尘

浮点数 计算机组成原理 6月日更

网络抓包实战03——TCP/IP协议栈:数据包如何穿越各层协议

青春不可负,生活不可欺

dubbogo 社区负责人于雨说

apache/dubbo-go

dubbo dubbo-go dubbogo

Redis入门五:主从复制

打工人!

redis 主从复制 6月日更

指挥中心情指勤一体化解决方案,河北公安情指勤一体化建设

Java内存模型

wzh

Java JVM happens-before 并发 Java内存模型

知乎上线1小时,5w浏览量被下架的JVM全解笔记,内容太强大

Java架构师迁哥

浅谈B端产品的表单元素设计

LigaAI

产品经理 UI 产品设计与思考

Java的函数式接口

中原银行

Java 函数式接口 中原银行

虚拟货币监管再加码:央行约谈部分金融机构 要求切断支付链路

CECBC

[译] R8 优化:方法的 Outlining 优化

Antway

6月日更

新华三商用终端新品全系入市,重塑办公极致体验

科技热闻

5分钟速读之Rust权威指南(二十八)RefCell<T>

wzx

rust

网络攻防学习笔记 Day53

穿过生命散发芬芳

网络攻防 6月日更

OpenAI发布开源人工智能研究工具集OpenAI Gym_Python_Jonathan Allen_InfoQ精选文章