Udacity DRL DQN project - 代码天地

Udacity DRL DQN project

其他 2019-02-18 16:55:34 阅读次数: 0

使用namedtuple创建 (s, a, s', r）的存储，可以根据名称作为索引。
（命名元组赋予每个位置一个含义，提供可读性和自文档性。它们可以用于任何普通元组，并添加了通过名字获取值的能力，通过索引值也是可以的。）

然后在使用batch_SGD训练的时候，可以依次按照名称进行打包，返回batch。（当然在这里用索引也是可以的，但代码可读性稍差）
创建replay buffer用deque
- 线程安全：可以同时从deque集合的左边和右边进行操作而不会有影响。
- 自动pop out满溢数据：当buffer容量满时，再添加新数据，可以自动pop out列表中最后的数据。
  
  deque文档
在backpropagation时，由target net得到的Q值需要固定，不用求导，因此该网络计算出来的tensor可以detach，减少下面使用loss.backward()的memory消耗并且提高运算速度。
用tensor.gather提取batch中每个state对应的Max Q。
gather函数提取输入action的Q值，1表示按列操作，因为输入的states是列，所以网络输出的是一个Q table的矩阵形式，因此需要提取每一列的对应的action值（action是index）。
选择action与环境互动时，由于只是为了用网络得到一个action，不用求导，可以关掉网络的求导功能，加快运算

猜你喜欢

转载自www.cnblogs.com/bourne_lin/p/Udacity-DRL-DQN-project.html

Udacity DRL DQN project

Udacity DRL DQN

DRL---------DQN详解

DRL:DQN, PG, AC, DDPG, SAC概述

人工智障学习笔记——强化学习(5)DRL与DQN

深度增强学习（DRL）漫谈 - 从DQN到AlphaGo

Udacity DL CNN Dog_Project Note

drl

构建一个简单的卷积神经网络，使用DRL框架tianshou匹配DQN算法

深度强化学习（DRL）简介与常见算法（DQN，DDPG，PPO，TRPO，SAC）分类

强化学习DRL--价值学习（DQN、SARSA算法）

深度强化学习DRL训练指南和现存问题（D3QN（Dueling Double DQN））

DQN

Udacity 深度学习项目２(Project2) Image Classification 解析

Udacity 商业数据分析项目打卡--Project2 分析问卷数据

深度强化学习及其在自动驾驶中的应用: DRL&ADS系列之(2): 深度强化学习DQN原理

Udacity 商业数据分析项目打卡--Project4 SQL- 基于零售数据挖掘业务特征

Udacity 商业数据分析项目打卡--Project3 预测邮寄产品目录带来的收入增长

Udacity 商业数据分析项目打卡--Project1解释数据可视化并阐述你的见解

Udacity 商业数据分析项目打卡--Project6 网红咖啡店的商业决策

Udacity 商业数据分析项目打卡--Project5 Tableau-为电影数据创建可视化

今天的DRL总结：Survey of surveys of DRL

DRL------------Poilcy Gradients

DRL Hands-on book

DRL--算法合集

DQN(1)

DQN笔记

Project

\(^_^)/ Project

Udacity - Intro to Statistics

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)