【论文笔记】Towards an Online Empathetic Chatbot with Emotion Causes

Towards an Online Empathetic Chatbot with Emotion Causes

在这里插入图片描述


任务:共情对话生成

会议:SIGIR 2021

原文论文地址

代码项目地址

Abstract

针对共情对话生成任务,引入对用户情绪原因的建模,并使用咨询(console)策略,引导用户倾诉更多自身的信息,开发了一个利用因果情绪信息的共情聊天机器人EMMA,并构建了一个标注了情绪原因的源自小爱同学的共情对话数据集。

Motivation

  • 现有的情感感知对话模型通常专注于控制回复内容以与特定的情感类别对齐,而共情是理解和关注他人感受和体验的能力。因此,学习引发用户情感的原因对共情回复生成很关键,即情绪原因。

  • 现有的开放域聊天机器人是通过社交媒体平台的“伪”对话进行训练的,与消息APP和Chatbot这样的私人渠道相比,人们通过社交媒体平台更愿意表达负面情绪。将EmpatheticDialogues数据集中的对话与通过小爱同学收集的真实在线对话日志进行对比。发现在EmpatheticDialogues数据集中,89%的对话以说话者表达他们的情绪原因开始,但只有7%的在线日志包含用户的情绪原因。换句话说,在线用户往往不会主动披露他们的情绪原因,而且如果聊天机器人没有明确询问,他们可能不会透露原因。

Introduction

受心理研究启发,基于用户的情绪原因设计了在线共情聊天机器人EMMA。当对话开始时:

  1. 挖掘用户情感类别,并识别情感诱因,
    • 若没有挖掘到情感诱因,EMMA会通过有效提问积极聆听引导用户主动披露情绪原因;
  2. EMMA基于对话历史、挖掘到的情感类别及情绪原因生成共情回复。

此外,本文从现实世界的在线日志中构建了一个大规模的同理心对话数据集X-EMAC,并手动标注了情绪原因。

Dataset:X-EMAC

本文构建了一个带情绪原因信息的新共情对话数据集XiaoAI Empathetic Conversation (X-EMAC) ,以检验情绪原因对共情回复生成的作用。

Emotion Cause. 将情绪原因定义可以用来检测或推断说话者的情绪的一个文本片段。首先,从小爱同学在线日志中随机抽取大量user queries,并请专家用四种常见的情绪类别对其进行注释:sad, anger, joy,others。这些带注释的queries用于训练情感分类器。

Counseling Strategies. 为了鼓励用户自我披露更多信息,本文聘请心理学家使用积极倾听和有效提问的咨询策略手动编写一组不同的模板。模板是分别针对每个情感类设计的,平均每个类有53个模板。然后,本文在线部署模板,作为对user queries的相应回复,这些queries被划分为特定的情绪类别(sad, anger, joy),并收集下一轮用户对模板的实时回复。根据这三轮对话(在线用户-在线模板-在线用户),人类专家需要在每一个话语中注释情绪原因的范围,并写出高质量的共情回复。我们还过滤掉了脏话和敏感的对话。

根据用户体验,情绪原因被手动分为29种常见的粗粒度类型,如失去某人、分手等。值得注意的是,本文发现62%的用户会对本文基于咨询的模板做出反应,这表明提出的咨询策略在鼓励用户参与在线共情对话中的有效性。

Model

在这里插入图片描述

模型基于GPT,如上图所示。将用户情绪类别、情绪原因拼接到输入序列后,当用户没有显示披露情绪原因时,hasCause置为[None],Emma会用积极倾听&有效提问策略做出回复,引导用户进行自我披露。随着对话的进行,Emma考虑多轮历史对话信息,输入变成[CLS] [speaker1] q1 [speaker2] r1 [speaker1] q2 [sep] label [sep] hasCause [sep] Cause [sep]。

Experiments

The Benefit of Emotion Causes. 实验验证了引入情绪原因的有效性。消融实验(EMMA vs. EMMA-cause)发现,当情绪类别标签的都融入两种模型时,只有EMMA具备捕获用户细粒度情绪、产生具有合适沟通策略、共情回复的能力。

The Effectiveness of Counseling Strategies. 实验还验证了咨询策略的有效性。当模型通过咨询策略获得更具体的Query时,可以看到共情程度和相关性的明显改善。

此外,实验发现Dist指标和人类、用户评估相矛盾。在手动检查比较模型生成的回复示例后,本文得出结论,具有太多不同n-gram的回复通常包含与用户体验不一致的内容。而人类再面对对方产生负面情绪时,通常倾向于使用“致谢”、“提问”等类型的文字,这在某种程度上导致了响应多样性的降低。文中给了一个样例描述了这一情况。

The Mutual Benefits of Joint Learning. 本文将情绪分类(ECf.)视为多分类任务,将情绪原因抽取(ECE)视为阅读理解任务,联合学习二者能够有效提升两个任务的性能。

Error Analysis. 联合学习情感理解和回复生成或许也可以获得更好的整体性能。直观上,我们可以感知生成的回复的共情水平,并将其制定为额外的损失,以联合学习。

Future Work. 融合常识知识,提高理解用户情绪的能力。

猜你喜欢

转载自blog.csdn.net/m0_47779101/article/details/130531958