DQN(Deep Reiforcement Learning) 发展历程（五）

其他 2019-02-26 11:54:40 阅读次数: 0

目录

值函数的近似
参考

DQN发展历程(一)

DQN发展历程(二)

DQN发展历程(三)

DQN发展历程(四)

DQN发展历程(五)

值函数的近似

当状态-动作数目太多时，使用表格存储所有的状态-动作会造成维度灾难，无法求解大规模问题。
可以采用一个函数来近似这个这个表格，输入状态-动作，输出对应的状态值。
可以使用神经网络来充当这个近似函数。

DQN

使用来一个神经网络来作为近似函数求解状态值。
每一步都更新这个神经网络，由于每步之间的输入数据是相关的，无法满足神经网络输入数据独立同分布的要求。
由此，使用一个经验池来存储更新过的（S，A，R），隔一段时间随机从这个经验池中抽取一个batch的（S,A,R）来修正神经网络的权值，以打乱数据之间的相关性。

Nature DQN

在此之前，训练时，计算状态值使用的是这个神经网络估计，而更新神经网络也使用同一个神经网络来估计状态值，容易造成过拟合，不利于算法的收敛。
于是，使用两个神经网络，一个用于策略的选择，一个用于状态值的更新。用于策略选择的神经网络，隔一段时间和另一个神经网络同步一次。通过异步更新加速算法的收敛。

DDQN

在DQN中，每次更新状态值都使用贪婪法选取最大的状态值来更新，每次都选择最大，容易造成过度估计。
DDQN在选择动作时分为两步，先在当前在选择动作的Q网络找到最大Q值对应的动作a，再把a代入计算Q值的网络中获得Q值。

Prioritized Replay DQN

DQN在经验池中随机选取batch更新神经网络，但是batch中每个（S，A，R）对神经网络的作用是不同的。通过对每个（S，A，R）做优先级排序，优先使用更新神经网络误差大的数据项，达到加速收敛的目的。

Dueling DQN

而 Dueling DQN 则对Q值改进。由于某些情况下，采用不同的动作对状态对不大，所以把Q分解为两个部分：
第一部分价值函数是仅仅与状态S有关，与具体要采用的动作A无关。
第二部分优势函数同时与状态S和动作A有关
通过最后再把两部分合并，通过解耦Q使得对不同的状态有更好的灵敏度。

参考

david siver 课程

https://home.cnblogs.com/u/pinard/

猜你喜欢

转载自www.cnblogs.com/vancasola/p/10436186.html

DQN(Deep Reiforcement Learning) 发展历程（五）

DQN(Deep Reiforcement Learning) 发展历程（三）

DQN Tutorial – Deep Reinforcement Learning with PyTorch

用Tensorflow基于Deep Q Learning DQN 玩Flappy Bird

Deep Reinforcement Learning 基础知识（DQN方面）

Deep Reinforcement Learning 基础知识（DQN方面）

Deep Learning 在NLP领域的发展

Udacity Deep Learning实战（五）

《Playing Atari with Deep Reinforcement Learning 》论文阅读笔记和分析（DQN 2013版）

【论文 PPT】【转】Human-level control through deep reinforcement learning（DQN）

【转载】强化学习（九）Deep Q-Learning进阶之Nature DQN

深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction

Deep Learning - Machine Learning

Deep Learning

Deep Learning: A Critical Appraisal deep learning发展的瓶颈和面临的挑战

对比学习 (Contrastive Learning) 发展历程 - 综述

github上DQN代码的环境搭建，及运行（Human-Level Control through Deep Reinforcement Learning）conda配置

Machine learning/Deep Learning Resources

What is Machine Learning, Deep Learning and Structured Learning?

Deep Learning - 第五章：机器学习基础

Deep Learning（深度学习）学习笔记整理系列之（五）

Deep Learning 1.1

Deep learning 1.3 作业

Important persons in deep learning

(花书) Deep Learning

Deep Learning综述[下]

Deep Learning 简介

deep Learning 合集

「Deep Learning」Note on ReLU

「Deep Learning」Note on Swish

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)