电商产品评论数据情感分析

来自:Python数据分析与数据化运营——宋天龙著

1. 分析方法与过程

本次建模针对京东商城上“美的”品牌热水器的消费者评论数据,在对文本进行基本的机器预处理、中文分词、停用词过滤后,通过建立包括栈式自编码深度学习、语义网络与LDA主题模型等多种数据挖掘模型,实现对文本评论数据的倾向性判断以及所隐藏的信息的挖掘并分析,得到有价值的内在内容。

2. 评论数据预处理

文本数据的预处理主要由3个部分组成:文本去重、机械压缩去词、短句删除。

2.1 文本去重

1. 文本去重,就是去除文本评论数据中重复的部分。去重的原因:

(1). 一些电商平台避免客户长时间不评论,设置一道程序,用户超过规定时间不评论,系统会自动评论。(比如国美)

(2). 同一个人出现重复评论,比如:同一个人购买多种热水器为了省事,复制粘贴,就会出现在同样或相近的评论,当然不乏有价值的评论,但只是第一条有作用。

(3). 由于语言的特点,大多数情况下,不同人之间有价值的评论不会出现重复,比如:“好好好好好好”,“XX牌热水器  XX升”或者复制、粘贴上一个人的评论,这种评论显然就只有最早评论才有意义(即第一条)

2. 常见文本去重算法及缺陷

许多文本去重算法通过计算文本之间的相似度,以此为基础去重,包括编辑距离去重、Simhash算法去重等。

猜你喜欢

转载自www.cnblogs.com/keye/p/9174500.html