深度强化学习DRL-Week 1 - 代码天地

深度强化学习DRL-Week 1

其他 2021-03-04 02:47:18 阅读次数: 0

2002年，在做研究生课题时，用到了神经元网络解决温度预测问题，当时深度革命还没发生，BP网络还是主流。后来工作中接触了专家系统，用来解决逻辑推理问题，用在高炉的异常炉况诊断上。

2018年初，被ImageNet不断提高的图像识别水平吸引，对CNN进行了初探，弄了台2*1080Ti的计算机，建立tensorflow环境，由一名研究生完成了1万张钢卷表面缺陷图像的训练和识别工作，准确率达到95.1%。不过当时没有怎么接触强化学习。

7.1前后偶然在B站看了一个机器捉迷藏的小视频，被深度吸引了，于是学习了一遍AlphaGo主创David Silver的深度强化学习课程，今天还看了一个2019年对David Silver的采访，觉得DRL对解决工业领域的复杂过程控制问题很有前途。又幸运的找到了深度强化学习导论第二版(Reinforcement Learning: An Introduction 2nd Edition)，准备再花一段时间系统学习一下。

8日下午，对All in AI浪潮的现状进行了研究，发现这波AI大潮中成功变现的不多，资本热潮似乎已经褪去，技术上也有文章质疑现在的AI只擅长打游戏，不能适应现实物理世界，DRL模型看上去很美，模型调参会搞死人。从AlphaGo称霸围棋，到陆奇宣布百度All in AI和后来的热潮，再到现实面前的头破血流，AI的起起伏伏与80年代BP网络那一波如出一辙，还要不要继续入坑？带着疑问，又找到了一遍新东西：UDRL(Upside down RL)。

9日上午，看了看UDRL论文，由于是LSTM之父的作品，出发点还是要把RL拉进监督学习，通过将奖励由RL的输出变为输入，将Action变为输出，避免了奖励函数建模和调参的大坑，可能为解决现实问题开辟了新路径。

猜你喜欢

转载自blog.csdn.net/xhydongda/article/details/107213865

深度强化学习DRL-Week 1

深度强化学习及其在自动驾驶中的应用: DRL&ADS系列之(1): 强化学习概述

DRL深度强化学习代码实战1——MountainCar-v0小车成功登顶

【王树森】深度强化学习(DRL)课程笔记：P1 基本概念（含gym安装）

深度强化学习1——强化学习到深度强化学习

揭秘深度强化学习-1简述

GAN深度强化学习1

强化学习（1）

强化学习(1)

【深度学习】对强化学习的理解（在CartPole-v1游戏下的强化学习）

深度学习之强化学习（1）强化学习案例

深度强化学习第1课｜强化学习入门

David Silver深度强化学习第1课

Chapter 1 - 2 欢迎来到深度强化学习

2018UCBerkeley深度强化学习Lec1

（1）深度强化学习基础【基本概念】

深度学习原理与实战：深度强化学习(DRL)入门

【李宏毅深度强化学习笔记】1、深度强化学习算法策略梯度方法（Policy Gradient）

强化学习（1）----简介

ChatGPT之深度强化学习DRL理解

深度强化学习【1】-强化学习入门必备基础（含Python迷宫游戏求解实例）

强化学习系列1：强化学习简介

强化学习介绍--系列文章1

【强化学习笔记】1.绪论

【强化学习】1-1-0 强化学习介绍【强化学习】1-1-0 强化学习介绍

AI强化学习随笔（1）

强化学习笔记1 （20181027）

强化学习（1）-Qlearning和policygradient

强化学习笔记1——MDP

强化学习总结（1）———Q Learning

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)