《Scikit-Learn与TensorFlow机器学习实用指南》第16章强化学习

其他 2018-05-31 05:17:11 阅读次数: 0

第16章强化学习

来源：ApacheCN《Sklearn 与 TensorFlow 机器学习实用指南》翻译项目

译者：@friedhelm739

校对：@飞龙

强化学习（RL）如今是机器学习的一大令人激动的领域，当然之前也是。自从 1950 年被发明出来后，它在这些年产生了一些有趣的应用，尤其是在游戏（例如 TD-Gammon，一个西洋双陆棋程序）和及其控制领域，但是从未弄出什么大新闻。直到 2013 年一个革命性的发展：来自英国的研究者发起了一项 Deepmind 项目，这个项目可以学习去玩任何从头开始的 Atari 游戏，甚至多数比人类玩的还要好，它仅适用像素作为输入并且没有游戏规则的任何先验知识。这是一系列令人惊叹的壮举，在 2016 年 3 月以他们的系统阿尔法狗战胜了世界围棋冠军李世石。没有一个程序能接近这个游戏的主宰，更不用说世界冠军了。今天，RL 的整个领域正在沸腾着新的想法，其都具有广泛的应用范围。DeepMind 在 2014 被谷歌以超过 5 亿美元收购。

那么他们是怎么做到的呢？事后看来，原理似乎相当简单：他们将深度学习运用到强化学习领域，结果却超越了他们最疯狂的设想。在本章中，我们将首先解释强化学习是什么，以及它擅长于什么，然后我们将介绍两个在深度强化学习领域最重要的技术：策略梯度和深度 Q 网络（DQN），包括讨论马尔可夫决策过程（MDP）。我们将使用这些技术来训练一个模型来平衡移动车上的杆子，另一个玩 Atari 游戏。同样的技术可以用于各种各样的任务，从步行机器人到自动驾驶汽车。

阅读全文

猜你喜欢

转载自blog.csdn.net/wizardforcel/article/details/80334130

《Scikit-Learn与TensorFlow机器学习实用指南》第16章强化学习

《Scikit-Learn与TensorFlow机器学习实用指南》第1章机器学习概览

《Scikit-Learn与TensorFlow机器学习实用指南》第7章集成学习与随机森林

《Scikit-Learn与TensorFlow机器学习实用指南》第8章降维

《Scikit-Learn与TensorFlow机器学习实用指南》第15章自编码器

《Scikit-Learn与TensorFlow机器学习实用指南》第5章支持向量机

《Scikit-Learn与TensorFlow机器学习实用指南》第14章循环神经网络

《Scikit-Learn与TensorFlow机器学习实用指南》第10章人工神经网络介绍

《Scikit-Learn与TensorFlow机器学习实用指南》第11章训练深层神经网络

Scikit-Learn & TensorFlow机器学习实用指南第一章：机器学习概览

【翻译】Sklearn与TensorFlow机器学习实用指南 —— 第16章强化学习（下）

Scikit-Learn 与 TensorFlow 机器学习实用指南学习笔记2 — 机器学习的主要挑战

Scikit-Learn 与 TensorFlow 机器学习实用指南学习笔记 3 —— 数据获取与清洗

【强化学习】强化学习介绍

【强化学习】强化学习分类

[强化学习]强化学习基础

强化学习的学习～

强化学习学习

Scikit-Learn 与 TensorFlow 机器学习实用指南学习笔记1 — 机器学习基础知识简介

强化学习步骤

WAF 强化学习

强化学习介绍

强化学习

强化学习的资料

强化学习基础

强化学习总结

强化学习笔记

强化学习-入门

强化学习（二）

深度强化学习

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)