"A Diversity-Promoting Objective Function for Neural Conversation Models"阅读笔记 - 代码天地

"A Diversity-Promoting Objective Function for Neural Conversation Models"阅读笔记

编程语言 2018-12-21 10:10:46 阅读次数: 0

因为最近在做的chatbot实验效果不太好，总是会出现一些没有营养的回复，如我不知道等等。所以查了一些资料，发现李纪为大神的篇文章是提供了处理这个问题的方法，所以借鉴了一下，顺便写一下博客记录。

文章主要的贡献是使用了最大互信息MMI代替常用的最大后验概率MLE等作为目标函数。MLE这个目标函数最常用在机器翻译任务上，最大的优势在于可以产生最自然的语言，但是多样性不好。对话任务和翻译任务还是有区别的，对话任务的回复往往是开放性的，选择范围更广，这样是用MLE很容易在最高票上产生“我不知道”这种安全并且符合语法的回复。尽管使用MLE在decoding昌盛的大量的N-best list的话，也是有很多不错的回复，但都排名很靠后。
作者认为产生这种结果的原因在于，我们只考虑了输入对输出的影响，但是没有考虑输出对输入的影响，所以选择了使用MMI这个目标函数作为优化对象。

MMI指标

先看一下标准的seq2seq目标函数是对数似然函数，如下：
在这里插入图片描述
S是输入源语句，T是输出target语句。目标就是最大化两者之间的对数似然函数。

对于互信息：
在这里插入图片描述
上式进行简单的推导，可以化为：

p(T)其实是一个语言模型，为了在目标中控制reply的多样性，添加一个惩罚系数lambda，上式转化为下式：

然后利用贝叶斯公式：

将（10）化为：

从这个式子我们来看，MMI实际上是在给出S得出T和给出T得到S之间做权衡取舍。

对应式子（9）和（10）训练两种模型，分别是MMI-antiLM和MMI-bidi。下面的章节我们会介绍这两个模型以及如何实现。

猜你喜欢

转载自blog.csdn.net/pnnngchg/article/details/85157543

"A Diversity-Promoting Objective Function for Neural Conversation Models"阅读笔记

A Diversity-Promoting Objective Function for Neural Conversation Models论文阅读

Deep Reinforcement Learning for Dialogue Generation 论文阅读 A Diversity-Promoting Objective Function for Neural Conversation Models论文阅读

A Knowledge-Grounded Neural Conversation Model

A Knowledge-Grounded Neural Conversation Model 翻译

《A Knowledge-Grounded Neural Conversation Model》

LOSS FUNCTION\COST FUNCTION\OBJECTIVE FUNCTION

lijiwei2-A Persona-Based Neural Conversation Model

目标函数 objective function 简介

《Modeling Multi-turn Conversation with Deep Utterance Aggregation》阅读笔记

Common sense Knowledge Aware Conversation Generation with Graph Attention阅读笔记

【论文阅读】Scaling Laws for Neural Language Models

论文阅读——Emotion Recognition in Conversation: Research Challenges, Datasets, and Recent Advances

论文阅读 | Target-Guided Open-Domain Conversation

论文阅读 | Interconnected Question Generation with Coreference Alignment and Conversation Flow Modeling

Hybrid Curriculum Learning for Emotion Recognition in Conversation 论文阅读 2022 AAAI

【论文阅读】A Deep Look into Neural Ranking Models for Information Retrieval

【论文笔记】Commonsense Knowledge Aware Conversation Generation with Graph Attention

【阅读笔记】（神经网络首个理论证明）《Wide Neural Networks of Any Depth Evolve as Linear Models Under Gradien Descent》

论文阅读笔记六十四: Architectures for deep neural network based acoustic models defined over windowed speech waveforms(INTERSPEECH 2015)

A private conversation

目标函数（Objective Function）、损失函数（Loss Function）与代价函数（Cost Function）

A Neural Probabilistic Language Model ------阅读笔记

Distilling the Knowledge in a Neural Network[论文阅读笔记]

论文阅读笔记：Distilling the Knowledge in Neural Network

Sequence to Sequence Learning with Neural Networks阅读笔记

Convolutional Neural Networks for Sentence Classification 阅读笔记

A Convolutional Neural Network for Modelling Sentences阅读笔记

《Progressive Neural Architecture Search》论文阅读笔记

A Neural Probabilistic Language Model阅读笔记

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)