pydial训练政策policy module - 代码天地

pydial训练政策policy module

其他 2019-01-06 20:01:47 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_31214097/article/details/85055564

人机对话的过程可以看做是多轮对话的过程,在传统方式中,我们可以通过手写规则,来依据用户的输入来决定系统的输出是什么.

pydial提供了强化学习的环境..可以测试你自身的训练政策或者加载在你自己的系统中加载训练政策.

手写规则:

if global_summary['GLOBAL_BYCONSTRAINTS'] > 0.5 and global_summary['GLOBAL_COUNT80'] > 3:
    act = PolicyUtils.getGlobalAction(belief, 'INFORM_BYNAME', domainString=self.domainString)
elif global_summary['GLOBAL_BYALTERNATIVES'] > 0.5:
    act = PolicyUtils.getGlobalAction(belief, 'INFORM_ALTERNATIVES', domainString=self.domainString)
elif global_summary['GLOBAL_BYNAME'] > 0.5:
    act = PolicyUtils.getGlobalAction(belief, 'INFORM_REQUESTED', domainString=self.domainString , 
                                      bookinginfo=self.booking_slots_got_value_for)

在现实生活中,这种方法并不推荐使用.

在NLU的输出部分,是对应的由一个个槽和对应的槽值组成的槽值对,而每个槽值对都有一个置信状态,联合起来便成了置信区间.

在DM中，就需要根据NLU产生的置信区间部分和已训练好的用户决策算法，这里通常使用强化学习的相关算法，例如gpsara算法，来产生与用户动作相同的系统动作。供语言生成NLG使用。

pydial中的policy.py方法,是所有其余决策方法的基类.他有需要建立一个对话奖励模型的所有需要的公共方法.

其余基于强化学习的例如sara方法,都是基于其上进行强化学习政策训练的来进行的.

猜你喜欢

转载自blog.csdn.net/qq_31214097/article/details/85055564

pydial训练政策policy module

Module

Privacy policy 隐私政策

ppTSM(Paddle temporal-shift-module)训练部署记录

IOS隐私政策（Privacy Policy）

Privacy Policy--隐私政策

functools module & inspect module

Module 的语法

Creating a module

module Makefile

ansible module

模块（Module）

Module：template

module blacklist

delete module

as 引入 module

css module

Weex Module

No jdk for module

Range Module

Module的加载

Module语法

导入Module:

Java module

lua --- Module

vuex Module

Lua Module

go module

module method

JS Module

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)