Unsupervised Sentiment Analysis with Signed Social Networks--阅读笔记

Abstract

背景:数量庞大的数据用户产生了大量的社交媒体数据,减慢了个人和公众情感分析的进度。

存在的挑战:

  1. 社交媒体数据往往带有噪声,且是不完整和快速发展的,这就需要设计一个复杂的学习模型。
  2. 情感标签难以收集,由于无法区分情感极性而进一步加剧了这个问题。

存在的机遇:

  1. 社交媒体数据在文字和用户交互包含丰富的情感信息,有助于情感分析。
  2. 目前的研究对具有正连接和负连接的有符号社交网络几乎没有注意。

主要工作:这篇文章研究了一个在有符号社交网络中进行无监督情感分析的新问题。具体来说,在有符号社交网络中引入了情感信息和隐含情感信号,并将其引入到情感模型中。

Introduction

这篇文章主要解决了以下两个问题:

  1. 用户之间积极和消极的互动是否显示出不同的情感极性?
  2. 如何以无监督的方式明确模拟用户之间的积极和消极的情感分析?

为解决这两个问题,提出了一个无监督情感分析框架SignedSenti,总结贡献如下:

  1. 验证了用户之间积极和消极的互动有助于揭示文本中不同的情感极性;
  2. 提出了一个新的框架SignedSenti,用于在正面和负面用户交互中利用文本术语中的显式情感信号和隐式情绪信号
    用于无监督的情绪分析;
  3. 在真实世界的有符号社交网络上验证了SignedSenti框架的有效性。

Problem Statement

这里写图片描述

  • T={t1,t2,...tm} be a set of m text posts;
  • F={f1,f2,...fd} be a set of d textual terms;
  • U={u1,u2,...un} be a set of n users;
  • O={o1,o2,...od} be a set of l items; text-item relation matrix O{0,1}ml where Oi,j=1 if text post ti is about item oj , otherwise Oi,j=0 .
  • User-Text relation matrix T0,1n×m such that Ti,j=1 if text post tj is posted by user ui , Ti,j=0 otherwise.
  • User-User relation matrix ARn×n where Aij=1 , Aij=1 and Aij=0 represent positive, negative and missing links from user ui to uj , respectively.

Definition 1 Positive Linked Set:
如果 ua ub 存在正连接,其中user ua 发的post ti 关于item or ,且user ub 发的post tj 也关于item or ,则存在正连接,即:
这里写图片描述

Definition 2 Negative Linked Set:
如果 ua ub 存在负连接,其中user ua 发的post ti 关于item or ,且user ub 发的post tj 也关于item or ,则存在负连接,即:
这里写图片描述

Assumption 1 Signed Link Based Partial Order:
具有正连接的两个post的相似性大于具有负连接的两个post相似性,即:
这里写图片描述

Data Analysis

这里写图片描述

  • Epinions:商品评价数据,用户可以通过评分去相信或不相信其他人的评价,当评分为1,2,3分为当做负连接,评分为4,5,6当做正连接;
  • Slashdot:论文评价数据,用户可以标注其他人为自己的朋友或敌人,即对应正负连接。

Proposed Framework-SignedSenti

Basic Model for Unsupervised Sentiment Analysis

无监督情感分析本质上是聚类问题,它的基本模型可由如下非负矩阵分解问题构建:
这里写图片描述

  • URm×k 为text-sentiment cluster matrix,其中如果text post ti 属于类 cj Uij=1 ,否则 Uij=0 。( m 为text post的总数, k 为情感类的总数)
  • VRd×k 为term-sentiment matrix, 其中每一行表示每个term在 k 个情感类中的分布情况。( d 为term的总数)
  • 后半部分正则化项避免过拟合。

Sentiment Signals from Textual Terms

有些术语带有强烈的情感色彩,如“wonderful” 和 “appealing”表达积极的情感, “terrible” 和“disappointed”表达负面的情感。

根据情感词库SentiWordNet,定义了term-sentiment indication matrix PRd×k 去编码单词的情感极性,在这里设置 k=2 ,让 Pi1 记录term fi 的正分数, Pi2 记录term fi 的负分数。

为了利用文本情感信号,我们强迫基本模型中的情绪矩阵 V 通过最小化与 P 一致:
这里写图片描述

Exploiting Positive and Negative Interactions

如果 tj (与 ti 存在正连接)比 tk (与 ti 存在负连接)更接近 ti 的情感,则存在:
这里写图片描述

否则:
这里写图片描述

所以应该增加一个惩罚项来拉动 tj (与 ti 存在正连接)比 tk (与 ti 存在负连接)更接近 ti 的情感,即:
这里写图片描述

其中:
这里写图片描述

上述公式可改写为:
这里写图片描述

  • M 为稀疏矩阵,其中 Mij=Mji=Mkk=1 Mik=Mki=Mjj=1 ,其他为0.
  • 这里写图片描述

Objective Function of SignedSenti

这里写图片描述

  • 参数 α β 分别控制来自terms和有符号社交网络的情感信号的贡献。

因上述目标函数难解,故放宽限制条件:
这里写图片描述

Optimization Algorithm for SignedSenti

固定 V ,更新 U

这里写图片描述

固定 U ,更新 V

这里写图片描述

算法框架:

这里写图片描述

Experiments

Experimental Setting

  • 评估指标:聚类准确性
  • 对比算法:
  • 这里写图片描述

  • 实验结果:

  • 这里写图片描述

  • 实验总结:提出的框架比其他算法效果更好!

  • -

猜你喜欢

转载自blog.csdn.net/liveway6/article/details/79002676