第六周学习笔记

其他 2018-09-21 22:26:58 阅读次数: 0

第六周学习笔记

本周的主要学习工作

1.CS229

第十七讲，离散与维数灾难

主要内容

离散化
为MDP学习模型
拟合值迭代算法（Fitted value iteration）,连续状态空间的强化学习算法

值得注意的地方

1.未知的 $P_{sa}$ 和 $R$

即便我们能够通过值迭代或策略迭代来解决MDP问题，但对于一些实际问题，我们不知道 $P$ 和 $R$ 的具体值，这时我们可以通过采样，在寻找策略的过程中同时模拟出真实的模型

第十八讲，线性二次型调节控制

笔记

有限边界MDP（Finite horizon MDPs），过程终止于step T，用T取代MDP五元组中的 $\gamma$ ，并且假设策略和转移概率是非平稳的（依赖时间的），回报函数同时依赖于状态和动作
有限边界的动态规划算法
线性二次型法则（linear quadratic regulation）
Bacardi离散方程

值得注意的地方

1.有限边界MDP为什么没有 $\gamma$

有限边界MDP和 $\gamma$ 的意义都在于让MDP过程是有限的，所以两者往往不同时使用

2.对物理模型的模拟

可以通过我们关注的点的的一阶泰勒展式来对物理模型进行线性估计。

2.实验

实验题目：走迷宫

实验目的：学习策略迭代，值迭代算法以及就地值迭代算法

实验过程：

1.描述

在一个5*5的迷宫中，有两个特殊的格点，分别是A（1,2）和B（1,4），当走到A点时，会自动移动到A’（5,2），并获得+10奖励，当走到B点时，会自动移动到B’（3,4），并获得+5奖励，任何试图走出边界的行为会得到-1的奖励，其他情况均获得0奖励， $\gamma$ =0.9

2.分别使用策略迭代，值迭代和就地值迭代算法

实验结果：

从图中可见，值迭代算法的收敛速度>就地值迭代算法>策略迭代算法

下周目标

完成CS229的学习，并做好总结

猜你喜欢

转载自blog.csdn.net/luo3300612/article/details/82691198

第六周学习笔记

第六周学习笔记(1)

第六周LINUX学习笔记

前端学习笔记第六周

第六周学习

笔记：机器学习——吴恩达第六周

机器学习基石第六周笔记

C++课程学习笔记第六周：多态

第六周笔记

第六周笔记与错题整理

第六周——上课笔记（一）

第六周

第六周.

Python学习之路_第六周

Linux学习第六周作业

机器学习基石第六周

java学习第六周

第六周学习总结

第六周学习进度总结

JAVA第六周学习总结

第六周学习生活总结

第六周学习报告

第六周学习进度

学习进度第六周

第六周java学习总结

《Java》第六周学习总结

第六周学习进度博客

linux学习第六周总结

JAVA学习第六周总结

第六周学习小结

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)