对话系统论文集（18）-GAN+A2C

其他 2019-04-18 00:16:50 阅读次数: 0

**问题：**解决reward稀疏问题

**背景：**提出SL先训练；使用intrinsic reward。

**创新点：**将discriminator作为intrinsic reward，即critic的一部分，在每次动作时，有本来critic给出和现在critic给出的结果。

实现细节：

效果提升很高。
未来展望，加快policy的收敛速度，测试在更复杂的对话任务上的表现。

猜你喜欢

转载自blog.csdn.net/yagreenhand/article/details/88689744

对话系统论文集（18）-GAN+A2C

对话系统论文集（19）-liubing将GAN用在task对话

对话系统论文集(17)-jiweiGAN闲聊型

对话系统论文集（6）-liubing

对话系统论文集（16）- GAN+逆强化学习用在文本生成

对话系统论文集（20）-阅读state tracking笔记

区块链论文集【18】

ACL论文集

论文集

2星|《横越未知》：过时的财经评论文集

NFV论文集（一）

语义分割论文集

深度学习：论文集

2019 miccai 论文集

国家队论文集

深度学习入门论文集合

人工智能论文集锦

2015cvpr论文集锦

迁移学习——论文集推荐

nlp顶会论文集地址

区块链论文集【19】

区块链论文集【25】

区块链论文集【24】

区块链论文集【三十三】

推荐必读 Vision Transformer 论文集

EMNLP2021对话系统论文合集

基于contrast learning的few-shot learning论文集合（2）

DL之GAN&DCGNN：GAN&DCGNN算法思路、关键步骤的相关配图和论文集合

一文说清C刊、C扩、北核、期刊、辑刊、增刊、论文集

视觉问答VQA领域论文集锦

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

周排行

ORACLE 跟踪文件详细解释

20190924-LeetCode解数独题目分享

分治法实例-找下标，下标与对应值相等

安全测试学习笔记

JavaScript笔记：原型和原型链

在Linux中检查可用内存的5种方法

BUAA_OO_JML

mongodb创建用户、备份、恢复等

生活20190602

使用MoveIt!配置软件包在RViz中进行机器人运动规划

每日归档

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)