最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

李宏毅深度强化学习课程:Q-learning for Continuous Actions

  • 2019-12-02
  • 本文字数:602 字

    阅读完需:约 2 分钟

李宏毅深度强化学习课程:Q-learning for Continuous Actions


传统的 Q-learning 的动作空间是离散的,有限数目的,比如上下左右四个动作。但是很多场景下,动作都是连续的,比如方向盘的转动角度,机器臂的转动角度等。有三个方法解决:第一个方法是随机 sample N 个动作,看哪个能获得最大的 Q 值;第二个办法是梯度下降来解决优化问题,但是计算量会很大,并且容易陷入局部最优。



设计一个网络让优化问题变得简单,其实就是如何构建一个神经网络,又能输出动作,也能输出 Q 值,而且动作对应的 Q 值最大。


基本的 idea 就是引入 Advantage,也就是每一个动作在特定状态下的优劣。我们不是要选最优的动作吗?其实就是要选 Advantage 最大的动作。Q,A(Advantage)和 V(Value)的关系如下:



如果我们能够限制 A 小于等于 0,并且选择的动作对应的 A 为 0,那么此时选择的这个动作的 Q 值是最大的。要做到这点,一种简单的想法就是让:



并且 P 为正 ,这个时候当 a=x 即选择的动作时为 0。


A 的矩阵表示为:



其中 x 是状态,u 是动作, [公式] 是神经网络的输出动作。令 [公式] ,即:



即 [公式] ,要满足这个要求,P 必须为正定矩阵。作者构造了一个对角线元素都是正数的下三角阵 L,然后再利用 L 构造 P。


具体过程如下:



另外还有一种方法是使用 Actor-critic 方法:



参考文献:


https://www.bilibili.com/video/av24724071/?p=5


https://www.cnblogs.com/wangxiaocvpr/p/5664795.html


本文转载自 Alex-zhai 知乎账号。


原文链接:https://zhuanlan.zhihu.com/p/73309906


2019-12-02 13:30647

评论

发布
暂无评论
发现更多内容

一文教你实战构建消息通知系统Django

华为云开发者联盟

Python 华为云 华为云开发者联盟 企业号2024年4月PK榜 Web应用程序

BOE(京东方)发布2023年年报 稳定经营促进高质量发展

爱极客侠

探索 ZKFair 的Dargon Slayer蓝图,解锁新阶段的潜力

长安区块链

NeuronEX 3.2.0 发布:增强数据采集、分析计算和管理功能

EMQ映云科技

Topaz Photo AI 2.4.2 AI图片智能降噪

影影绰绰一往直前

从GPT模型来看ChatGPT 如何在语言处理领域引领潮流?

霍格沃兹测试开发学社

玩转云端| 网络也i人?咋变显眼包?天翼云AccessOne边缘接入来了!

天翼云开发者社区

云计算 网络安全 云服务 边缘安全

Apifox 接口文档「额外字段 HashMap」的校验设置

Apifox

后端 hashmap 接口文档 API 额外字段

Affinity Publisher 2(逆天排版神器)v2.4.1中文直装版 win

iMac小白

京东云开源软件治理工具SSCM强势来袭!免费试用

京东科技开发者

GPT 模型解析:ChatGPT 如何在语言处理领域引领潮流?

测试人

软件测试

新增功能:节点支持only配置啦!!!

Jianmu

JetBrains WebStorm 2023 v2023.3.6 激活版 win版

iMac小白

Topaz Gigapixel AI 7.0.5 AI图片无损缩放

影影绰绰一往直前

强大的视频下载工具 Downie 4 for Mac v4.7.7中文版

iMac小白

智能商品管理:品牌实现以销定产的新引擎

第七在线

透视微盟2023:SaaS基本盘稳健背后,大客化成色几何?

ToB行业头条

云存储管理工具CloudMounter for Mac v4.5 激活版下载

iMac小白

强大Ruby和Rails开发环境 JetBrains RubyMine 2023 for Mac v2023.3.6中文激活版

iMac小白

强大集成开发环境(IDE)WebStorm 2023 for Mac

iMac小白

Autodesk 3DS MAX 2025 (3Dmax2025) win版

iMac小白

捷途山海T2正式开启预售,新能源方盒子SUV仅售18.49万起

Geek_2d6073

新增功能:节点支持only配置啦!!!

都广科技

大模型LLM在Text2SQL上的应用实践

百度开发者中心

自然语言处理 大模型 LLM

云行|中国速度,智算未来!天翼云为宁波数智化发展注入新动能!

天翼云开发者社区

人工智能 云计算 云服务

通义灵码走进武汉大学:让 AI 编码助手激活大学生的创造力

阿里巴巴云原生

阿里云 AI 云原生

京东为openKylin新增SBOM利器,保障软件供应链安全和可追溯性

京东科技开发者

2024第104届上海电子展会

AIOTE智博会

电子展 电子信息展 上海电子展

数据库管理工具 TablePlus for Mac 3.11.0免注册版

iMac小白

多轨音频编辑软件Multitrack Editor for Mac

iMac小白

正则表达式-子表达式&回溯引用

追随月光的战士

#正则表达式

李宏毅深度强化学习课程:Q-learning for Continuous Actions_文化 & 方法_Alex-zhai_InfoQ精选文章