强化学习及其在NLP上的应用

其他 2018-10-15 13:19:17 阅读次数: 0

what is RL?

RL输入是一个序列，很大程度上两次输入的相关联

Different kinds of RL

线性或非线性拟合会有几个问题：1、默认数据独立同分布，但是输入数据间有关联 2、target不稳定，label 好坏程度或正确程度不稳定

DQN对其进行三方面改进：1、深度卷积神经网络拟合能力比较强 2、通过之前的样本或者别人的样本进行训练，主要是打乱样本之间的相关性

状态－－》策略拟合

动作很多或者连续动作空间，会消耗更多的资源不适合用基于值的RL

适合使用基于策略的RL，减少过程计算

缺点：

高方差：ac算法或a3c算法可以解决高方差这个问题

目的：骷髅拿到钱

确定性策略问题：灰色块往左走，白色块往右走，那一直得不到想要的结果

随机性策略：可以探索更多的区域

RL在离散空间有天然的优势,文本生成、序列决策

相似的论文："Adversarial Learning for Neural Dialogue Generation (2017)"

GAN 不能用于自然语言处理和文本生成：

判别器生成器：判别器加0.1，在词库可能找不到

判别器：CNN 生成器：LSTM

视频参考链接：http://www.mooc.ai/course/503/learn#lesson/2762

猜你喜欢

转载自blog.csdn.net/weixin_41362649/article/details/82939609

强化学习及其在NLP上的应用

一种强化学习在NLP文本分类上的应用模型

百度NLP：强化学习之原理与应用

深度强化学习及其在自动驾驶中的应用: DRL&ADS系列之(1): 强化学习概述

【强化学习篇】--强化学习从初识到应用

深度强化学习综述(上)

2018年AI和ML（NLP、计算机视觉、强化学习）技术总结和2019年趋势（上）

深度强化学习及其在自动驾驶中的应用: DRL&ADS系列之(2): 深度强化学习DQN原理

《强化学习原理及其应用》PDF+《深入浅出强化学习原理入门》PDF及源代码

强化学习在机器人中的应用

科普 | 强化学习技术及应用

6、DRN-----深度强化学习在新闻推荐上的应用

强化学习及其常见算法介绍

Python强化学习实战及其AI原理详解

【强化学习】强化学习介绍

【强化学习】强化学习分类

[强化学习]强化学习基础

强化学习的学习～

强化学习学习

学习笔记：强化学习在机器人中的应用

【深度学习+深度强化学习】技术应用

深度学习+深度强化学习技术应用

深度学习及深度强化学习核心应用

小试牛刀：应用深度强化学习优化文本摘要思路及在裁判文书摘要上的实践效果

强化学习步骤

WAF 强化学习

强化学习介绍

强化学习

强化学习的资料

强化学习笔记

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)