一、论文的highlights
1. We propose a review-based model to obtain sentiment ratings.
提出基于评论的模型来获得情感分。
2. We design a new reliability scheme for review and rating.
设计了一个评分和评论的可靠度机制。
3. Ratings and review sentiment ratings used for prediction in a matrix factorization framework.
在矩阵分解框架中使用评分和评论情感分进行预测。
二、实验部分
1. 评论的情感分析
1)用所有评论训练得到Word2vec,每个单词都有一个对应的向量(维度默认100);
2)将数据集分为训练集合测试集,并将评论转化为数值矩阵(一个单词对应一个1*100的向量,一句话为一个n*100的矩阵,n为句子的单词个数)
(目前做到了这个部分)
3)使用lstm网络将评论转为情感分,输入是评论的数值矩阵,输出是一个数(评论的情感分)。
2. 评分和评论可靠性
1)对于评分和情感分差距不大的用户项目对,取其均值为最终评分。
2)对于评分和情感分差距较大的用户项目对,之前讨论的想法是:通过用户邻居(朋友)以投票的方式确定以评分为主还是以评论为主。将评论转化为情感分后问题从 “评分和评论哪个可靠?” 变成了 “两个分数哪个更真实?”。投票的方式具体化为分数的距离。由邻居分数的加权和确定评分可靠还是评论情感分可靠
例:用户 u 对项目 i 有评分 5 和评论情感分 4,u 有 3 个邻居,设 3 个邻居对项目 i 的平均分为 4.3 分,则将用户 u 对项目 i 的最终评分置为 4 分。
3)邻居关系可以由数据集提供或由相似的项目交互记录确定。
3. 矩阵分解部分
使用前面得到的用户对项目的最终得分进行矩阵分解。
问题:
1. 在网上找了一个基于lstm的文本分类代码,在这个基础上进行修改。目前工作为:
1)原代码分析的文本是中文,要改为英文;
2)网上大多数文本分析做的是二分类或三分类任务,要修改网络结构。
2. 可靠性部分,邻居的分数能否确定。