李宏毅深度强化学习课程：Q-learning for Continuous Actions_文化 & 方法_Alex-zhai_InfoQ精选文章



 写点什么

登录/注册

李宏毅深度强化学习课程：Q-learning for Continuous Actions

传统的 Q-learning 的动作空间是离散的，有限数目的，比如上下左右四个动作。但是很多场景下，动作都是连续的，比如方向盘的转动角度，机器臂的转动角度等。有三个方法解决：第一个方法是随机 sample N 个动作，看哪个能获得最大的 Q 值；第二个办法是梯度下降来解决优化问题，但是计算量会很大，并且容易陷入局部最优。

设计一个网络让优化问题变得简单，其实就是如何构建一个神经网络，又能输出动作，也能输出 Q 值，而且动作对应的 Q 值最大。

基本的 idea 就是引入 Advantage，也就是每一个动作在特定状态下的优劣。我们不是要选最优的动作吗？其实就是要选 Advantage 最大的动作。Q,A(Advantage)和 V(Value)的关系如下：

如果我们能够限制 A 小于等于 0，并且选择的动作对应的 A 为 0，那么此时选择的这个动作的 Q 值是最大的。要做到这点，一种简单的想法就是让：

并且 P 为正，这个时候当 a=x 即选择的动作时为 0。

A 的矩阵表示为：

其中 x 是状态，u 是动作， [公式] 是神经网络的输出动作。令 [公式] ，即：

即 [公式] ，要满足这个要求，P 必须为正定矩阵。作者构造了一个对角线元素都是正数的下三角阵 L，然后再利用 L 构造 P。

具体过程如下：

另外还有一种方法是使用 Actor-critic 方法：

参考文献：

https://www.bilibili.com/video/av24724071/?p=5

https://www.cnblogs.com/wangxiaocvpr/p/5664795.html

本文转载自 Alex-zhai 知乎账号。

原文链接：https://zhuanlan.zhihu.com/p/73309906

评论

发布

暂无评论

SATA硬件驱动器接口的可制造性问题详解

服务器删除文件后磁盘空间没有立刻释放问题

LED显示屏由哪些部件组成

系统 LED显示屏屏幕电源

分享一套适合二开的JAVA开源版本MES系统

万界星空科技

生产管理系统云mes 免费mes 开源mes mes源码

万界星空科技生产管理MES系统的数据追溯技术

万界星空科技

mes 云mes 追溯系统产品追溯万界星空科技mes

华润啤酒走进用友，数智化赋能酒业新世界

超级APP，All in one APP

用友BIP，助力轴承行业数智化转型

数智化转型

硬件开发少走弯路，来华秋这场研讨会提升技能

iOS应用加固方案解析：ipa加固安全技术全面评测

平安人寿基于 Apache Doris 统一 OLAP 技术栈实践

数据库大数据数据仓库数据分析 apache doris

推送效率低？MobPush带着APP消息推送一站式解决方案来了

MobTech袤博科技

Amazon Bedrock 划算吗？Bedrock 大模型服务定价与分析

如何配置支付宝密钥之如何配置证书｜保姆级教学（二）

盐焗代码虾

证书支付宝经验分享密钥

WorkPlus安全专属移动数字化航空母舰，助力企业掌控业务和生态

WorkPlus定制化的沟通协作平台，助您实现企业级完全掌控

继电器的工作原理与应用案例

iPulse 激活版for mac(系统状态监控软件) v3.141

胖墩儿不胖y

Mac软件系统监控软件

盈利能力管理，为企业未来发展创造优势

全面预算盈利能力

双十一剁手节，MobPush助力各大电商平台提前锁定潜力用户

MobTech袤博科技

如何构建新一代实时湖仓？袋鼠云基于数据湖的探索升级之路

袋鼠云数栈

数据仓库数据湖湖仓一体大数据仓库实时湖仓

武创院区块链产业研究所：基于鲲鹏DevKit开发区块链政务服务协同数据治理平台，数据管理更放心