对话系统论文集(18)-GAN+A2C

**问题:**解决reward稀疏问题

**背景:**提出SL先训练;使用intrinsic reward。

**创新点:**将discriminator作为intrinsic reward,即critic的一部分,在每次动作时,有本来critic给出和现在critic给出的结果。

实现细节:

效果提升很高。
未来展望,加快policy的收敛速度,测试在更复杂的对话任务上的表现。

猜你喜欢

转载自blog.csdn.net/yagreenhand/article/details/88689744