强化学习及其在NLP上的应用

what is RL?

RL输入是一个序列,很大程度上两次输入的相关联

Different kinds of RL

线性或非线性拟合会有几个问题:1、默认数据独立同分布,但是输入数据间有关联 2、target不稳定,label 好坏程度或正确程度不稳定

DQN对其进行三方面改进:1、深度卷积神经网络拟合能力比较强  2、通过之前的样本或者别人的样本进行训练,主要是打乱样本之间的相关性

状态--》策略拟合

动作很多或者连续动作空间,会消耗更多的资源不适合用基于值的RL

适合使用基于策略的RL,减少过程计算

缺点:

高方差:ac算法或a3c算法可以解决高方差这个问题

目的:骷髅拿到钱

确定性策略问题:灰色块往左走,白色块往右走,那一直得不到想要的结果

随机性策略:可以探索更多的区域

RL在离散空间有天然的优势,文本生成、序列决策

 相似的论文:"Adversarial Learning for Neural Dialogue Generation (2017)"

GAN 不能用于自然语言处理和文本生成:

判别器 生成器:判别器加0.1,在词库可能找不到

判别器:CNN      生成器:LSTM

视频参考链接:http://www.mooc.ai/course/503/learn#lesson/2762

猜你喜欢

转载自blog.csdn.net/weixin_41362649/article/details/82939609