《强化学习导论》之doubleQ-Learning的理解

其他 2020-04-19 08:49:08 阅读次数: 0

在这里插入图片描述
我的理解是这个最大化偏差来源于Q学习中的求取的最大化这个步骤可能得到的值不准确。然后这个期望，我觉得是讲动作和值解耦，然后从E的表达式来看，求得期望就是从另一个Q得到的动作的期望，默认第一个Q学到的是最大动作，然后第二个Q只求期望。两个没有干扰

同时，在周博磊的视频课程中，也可以认识到，因为我们采取的max这个操作的时候，用的还是待优化的东西，因此不是很准确，有偏差。

野生蘑菇菌

发布了53 篇原创文章 · 获赞 8 · 访问量 3054

私信关注

猜你喜欢

转载自blog.csdn.net/def_init_myself/article/details/105540946

《强化学习导论》之doubleQ-Learning的理解

强化学习导论（Reinforcement Learning：An Introduction）学习笔记（五）

强化学习导论（Reinforcement Learning：An Introduction）学习笔记（二）

强化学习之Q-learning

强化学习之Q——learning

通过 Q-learning 深入理解强化学习

强化学习Q-learning的理解与python实现

强化学习理解

强化学习（Reinforcement Learning）

强化学习(Reinforcement Learning)

Reinforcement Learning 强化学习

深度强化学习之模仿学习（Imitation Learning）

强化学习通俗导论（一）：什么是强化学习

强化学习入门之Q-Learning1

强化学习之Q-learning简介

强化学习之Q-learning算法

强化学习（一）Q-Learning/DQN之CartPole

强化学习之Q-Learning（附代码）

强化学习之CartPole游戏(Q-learning)

《Reinforcement Learning: An Introduction》强化学习导论原文翻译 17.3 观察与状态

《Reinforcement Learning: An Introduction》强化学习导论原文翻译 17.4 设计奖励信号

《Reinforcement Learning: An Introduction》强化学习导论原文翻译 17.6 人工智能的未来

《Reinforcement Learning: An Introduction》强化学习导论原文翻译 17.5 剩下的问题

《Reinforcement Learning: An Introduction》强化学习导论原文翻译17.2 通过选项(option)做时域抽象

《Reinforcement Learning: An Introduction》强化学习导论原文翻译17.1 广义价值函数和辅助任务

强化学习导论——Policy Gradient Methods

强化学习1.导论

强化学习 1.导论

对深度强化学习的理解

Reinforcement Learning 强化学习/增强学习

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)