京东商品评论的分类预测与LSA、LDA建模

(一）数据准备

1.爬取京东自营店kindle阅读器的评价数据，对数据进行预处理，使用机器学习算法对评价文本进行舆情分析，预测某用户对本商品的评价是好评还是差评。通过数据分析与模型分析，推测出不同型号（价格）的kindle具有的特征，并根据每种型号的特征向不同需求的顾客推荐。爬取的数据集中包括“评论”、“字数”、“评论的点赞数”、“评论的评论数”、“评论类型”五列，为了找出价值较高的数据。首先利用主成分分析的方法，将“字数”、“评论的点赞数”、“评论的评论数”作为输入变量，得到每条数据的权重，而后抽取好评与差评中，权重最高的各50条记录，进行抽样，利用抽样得到的100条数据进行数据分析。随后，对评论内容进行结巴分析并去除停用词及数字、英文等词（图2-3），并用词云进行结果展示（图2-4）；根据图2-4的词云内容可知，558款kindle好评偏多，它的关键词为“白色”、“喜欢”、“看书”、“阅读”等，但也有较多“闪屏”、“问题”字眼；928款kindle主要关键字为“电子书”、“喜欢”、“保护”、“屏幕”、“售后”等；1258款kindle关键字为“喜欢”、“屏幕”、“阅读”、“物流”等。

　　　　　　　　　　　　　　　　　　　　　　　　 558款　　　　　　　　　　　　928款　　　　　　　　　　　　 1258款

2.计算词频

将分词后的语句转换为向量的形式，这里使用CountVectorizer实现转换为词频；并将句号、评论内容、是否好评、单句词频、词汇总词频等存储到excel中，便于下一步的分析，如图。

3.计算TF-IDF值

TF-IDF是一种常用于信息处理和数据挖掘的加权技术。该技术采用一种统计方法，根据字词在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。它的优点是能过滤掉一些常见的却无关紧要本的词语，同时保留影响整个文本的重要字词。TF-IDF权重计算方法主要用到两个类：CountVectorizer和TfidfTransformer。

①CountVectorizer。CountVectorizer类会将文本中的词语转换为词频矩阵，例如矩阵中包含一个元素a[i][j]，它表示j词在i类文本下的词频。它通过fit_transform函数计算各个词语出现的次数，通过get_feature_names()可获取词袋中所有文本的关键字，通过toarray()可看到词频矩阵的结果。②TfidfTransformer用于统计vectorizer中每个词语的TF-IDF值。

下图2-7、2-8是计算评论TF-IDF值的主要代码及结果展示。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　图2-7 计算评论TF-IDF值

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　图2-8 TF-IDF值展示

（二）模型构建

模型构建前用LassoCV回归模型进行特征选择，对整个数据集降维，再先后构建决策树、朴素贝叶斯模型。

1.特征选择

首先，这里用生成的词向量文件举例，观察数据预处理中得到的数据集特征。该数据集其实是一个大型的稀疏矩阵，该矩阵中零元素占大多数且维度很高，如1258款的数据集除目标变量“是否好评”外，一共有720个自变量（分出来的全部词）。其实，里面大多数的词对于目标变量没有重要价值，如果全部作为模型的输入变量，构建出模型的质量不会太好，所以很有必要对数据集进行特征选择。

由于该数据集是高纬度稀疏矩阵， LassoCV回归模型正好擅长在高纬度系数矩阵中的一堆特征里面找出对应于目标变量主要的特征，该模型的效果是，可以使得一些特征的系数较小,并使一些绝对值较小的系数直接变为0，如果该变量的系数为0，则说明这个变量不重要，这样就可以在后续的操作中根据这个把不重要的变量筛选掉，从而增强模型的泛化能力，因此可以通过该模型计算出各个变量系数的结果来区分变量的重要性，以及筛选掉那些并不重要的变量

如图3-1所示，可知该模型信息与该模型最终筛选掉了653个无关变量，最终保留了67个重要变量。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 LassoCV回归模型

再将模型结果根据计算出的系数进行排序，打印出前20个和后20个进行观察，如图所示。

3.构建朴素贝叶斯、神经网络模型

1）训练朴素贝叶斯模型使用tf-idf值的文件，同样经过LassoCV回归模型特征选择后，采用训练集70%，测试集30%的模式进行模型的训练与测试，如图3-8所示，其模型准确率与决策树一样达到97%，召回率与F值均为97%，模型效果很好。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　图 3-8 朴素贝叶斯模型

2）训练神经网络同样使用与朴素贝叶斯一样的数据集，模型构建及测试如图3-9所示，测试集中有28个预测正确，准确率达到93.3%，召回率与F值均为93%，模型效果不错。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　图 3-9 神经网络模型

4.模型结论

对模型结果进行分析，首先我们分析特征选择模型筛选出的对于顾客体验有关联的40个词，把每种型号的词分为“与商品特征相关”、“与客户体验相关”两类词，同时剔除无关词语如：

1.情绪化词语（对于推测商品特征没帮助），如'喜欢'、'不好'、'强烈推荐'、'没用'

2.词意不确定的词语

3.无意义词语，结合决策树中的关键词，最终得出结论如下表所示。

	558款	928款	1258款
与商品特征相关	'跳字'，'插头'，'彩色'，'功能'，'光线'，'轻便'，'白色'	'黑色'，'处理速度'，'字迹'，'充电'，'保护套'，'分辨率'	'保护套'，'电量'，'数据线'，'味道'，'塑料'，'屏幕'，'纸质'，'内存'
与客户体验相关	'划痕'，'服务态度'，'好看'，'方便'，'眼睛'，'轻便'，'沉沉的'	'堪比'，'纠结'，'轻便'，'眼睛'，'舒服'，'晚上'	'用券'，'价格'，'免息'，'方便'，'礼物'
官方数据	入门款分辨率：167ppi 无阅读灯重量：161克内存：4G 防水：无	经典款分辨率：300ppi 有阅读灯重量：161克内存：8G 防水：IPX8	漫画款分辨率：300ppi 有阅读灯重量：161克内存：32G 防水：IPX8
决策树重要词语（括号中为补充解释）	'方便'、（受欢迎）'白色'、（不）'伤眼'	（重要）'晚上'、'轻便'、（美观）'保护套'	（好）'屏幕'、（价格）'免息'、'方便'
结论	入门款有基础功能，购买该款的人群主要为了方便、不伤眼看书舒服，要求较低。该款白色更受欢迎，侧面说明购买该款的人女性居多	经典款在入门款的基础上加了阅读灯，提升了分辨率。购买该款的人群相比于入门款主要为了阅读轻便舒服、晚上阅读方便、分辨率更高、处理速度更快。且比入门款更加在意保护套，说明购买这一款的人群更加注重美观	漫画款在经典款的基础上增加了大内存。购买该款的人群主要为了高质量的屏幕以及大的内存。由于该款价格较高，购买的人较注意购买时分期免息的优惠。侧面说明购买kindle的人群价格接受分界线在1000元左右

（三）数据分析

主题分析-潜在语义分析模型(LSA)与文档主题生成模型(LDA)

1 传统向量空间模型的缺陷

向量空间模型简单的基于单词的出现与否以及TF-IDF等信息来进行检索，但是“说了或者写了哪些单词”和“真正想表达的意思”之间有很大的区别，其中两个重要的阻碍是单词的多义性(polysems)和同义性(synonymys)。多义性指的是一个单词可能有多个意思，比如Apple，既可以指水果苹果，也可以指苹果公司；而同义性指的是多个不同的词可能表示同样的意思，比如search和find。

2 潜在语义分析模型(LSA)

我们希望找到一种模型，能够捕获到单词之间的相关性。如果两个单词之间有很强的相关性，那么当一个单词出现时，往往意味着另一个单词也应该出现(同义词)；反之，如果查询语句或者文档中的某个单词和其他单词的相关性都不大，那么这个词很可能表示的是另外一个意思(比如在讨论互联网的文章中，Apple 更可能指的是Apple公司，而不是水果) 。

LSA(LSI)使用SVD来对单词-文档矩阵进行分解。SVD可以看作是从单词-文档矩阵中发现不相关的索引变量(因子)，将原来的数据映射到语义空间内。在单词-文档矩阵中不相似的两个文档，可能在语义空间内比较相似。我们是一个使用sklearn中的TruncatedSVD进行文本主题分析。

1）实现步骤

（1）将数据填充空白值处理后抽样50条差评（或差评）。

（2）分词、停用词处理得到如图4-1的结果。

（3）将（2）的结果作为输入，调用TfidfVectorizer.fit_transform方法得到词向量矩阵

（4）设定主题数、能代表主题的文档数、主题的关键词数,调用TruncatedSVD方法处理

（5）打印结果。

2）结论解读

我们选定3个有代表性的主题（topic)，每个主题选取3个代表性的文档，每个主题选取5个关键词（key word)。得到结果如表3-1，3-2所示。

表4-1 差评结果（实例）

	topic 0	topic 1	topic 2
Keyword 0	京东	翻页	客服
Keyword 1	东西	屏幕	不好
Keyword 2	快递	左侧	态度
Keyword 3	客服	一页	咨询
doc 0	快递超级慢，本来送给老师的教师节礼物，竟然过了几天才到！不是说京东自营第二天可以送达的吗？又欺骗顾客，投诉还无效～～第一次这么失望	没有送充电头，屏幕感觉还行，右侧翻页没问题，左侧翻页混乱，经常是左侧也是下一页	买到的kindle有问题，咨询客服，态度很差，很不好的一次购买体验！
doc 1	第一次碰到这么慢的京东快递，绝对差评，以后买东西要考虑转其他商城了。差评差评差评	东西收到了，感觉不错，屏幕翻页的时候很闪，很不习惯，答应送的50元购书劵没有送，差评	不到俩月，出现三次这个情况，前两次自己解决了。这次彻底坏了，练习了售后，说是更换一个官方维修机。哎……可能是运气不好吧
doc 2	失望至极朋友说京东自营可以结果一直闪屏真不知道网评那么好哪来的便宜无好货哎上当	显示屏保的时候居然能看到下面一页的字！翻页的时候闪到头晕，翻页过程中经常出现黑色的屏闪，朋友家的那个就没有这种问题！	不满意，有问题咨询。买之前客户态度很好。买过以后态度恶劣。连消息都不理。过段差评。而且注册账号，我了过凉。简直要人命

在此例中，3个topic可以理解为京东快递、屏幕及翻页、客服态度。这时便可向消费者传递信息，此商品的槽点在于京东快递不给力，屏幕和翻页问题，客服态度差。若消费害怕出现上述同样的问题，则不推荐购买。

表4-2 好评结果（实例）

	topic 0	topic 1	topic 2
Keyword 0	看书	屏幕	闪屏
Keyword 1	真的	入门	现象
Keyword 2	阅读	完美	真的
Keyword 3	不错	舒服	接受
doc 0	买正好新品下手拿到失望阅读效果确实很棒特别电子墨水屏真的舒服一点不伤眼睛关键纸快递很快包装确实令人失望裸机加塑料包装真的担心物流中途机子弄烂幸好看书买个操作迟钝换闪手机灵敏阅读体验很棒系统算是预期效果	入门版阅读灯屏幕不平新版犹豫久到货查看手感棒入门版款更让人心动广告关速度很快后期反馈可用容量自我感觉舒服	闪屏现象之外操作延迟接受心理准备不错产品期待很久阅读器喜欢包装真的简单粗暴哈哈哈哈
doc 1	阅读器买评价质量不错轻出门携带轻巧负担放包里没什么京东物流不错快递师傅态度机器包装简单操作繁琐平时手机习惯习惯几本书看书闪频还好确实眼晴好受点买想戒手机不知戒会员优惠点太力机器到手颜值力字调节买外壳随身带研究透机器开机待机时间还好希望阅读体验	压泡面神器阅读灯光线均匀屏幕平整再藏尘升级超值续航差点天充电显示效果细腻入门款好多字号字体大小入门款一点	关注新品很久下单心心念念物流特别其他人说包装简陋挺书券充电器充电开机卡顿闪屏现象阅读一会闪屏现象发现减少闪屏技巧翻页按着左下角部位按着左下角稍微往上部位闪屏阅读体验喜欢
doc 2	入手晚超爱阅读早买神器手机看书眼睛实在受不了干涩发涨电子墨水纸书手机强太安心看书闪屏不可避免接受乳鸭图保护壳做工不错套好看	入门版阅读灯屏幕不平新版犹豫久到货查看手感棒入门版款更让人心动广告关速度很快后期反馈可用容量自我感觉舒服	物流超级早上九点前拍当天下午四五点收到机器迷你放接口比例视觉效果不错纸质书待机显示内容书本间歇翻页闪屏技术办法解决依然

在此例中，3个topic可以理解为看书阅读、屏幕完美、闪屏。这时便可向消费者传递信息，该商品的亮点在于看书阅读体验好，屏幕体验效果好，但存在闪屏现象需要注意，不过问题不大。

以往消费者购买某商品，需要浏览大量评论并反复对比好评差评，LSA精简了评论信息，不仅能实现一定程度的聚类，帮助筛选主要信息，提取关键词，更能将有代表性的具体文档提供提给消费者，为语义分析提供一定的依据。

3）LSA的不足与LDA的优点

上例中，LSA对TF-IDF进行处理得出结论，而IDF值的大小表示某词在所有文档中重要程度，IDF值越大，说明某词区别于其他词的程度就越大；相反，在所有的差评或好评中，我们希望找到大家共同出现的问题，对于某些个别问题我们可以忽略。同时，LSA利用分解SVD进行处理，主要是对分类任务进行降维。消除了同义词、多义词的影响，但LSA的概率模型假设文档和词的分布是服从联合正态分布的，但从观测数据来看是服从泊松分布。LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

4）LDA实现及结果

（1）权重排序后抽样好评差评各50条

（2）处理数据得到词频矩阵

（3）设定主题数、关键词数、支持文档数

（4）调用LatentDirichletAllocation方法进行处理得到表4-3和4-4的结果

表4-3 差评结果（实例）

	topic 0	topic 1	topic 2
Keyword 0	京东	客服	退货
Keyword 1	下单	东西	不好
Keyword 2	购物	套装	时间
Keyword 3	商品	不错	闪屏
doc 0	吐槽京东定价体系价格变充分利用规则月日下单买个套装元说保价天到第天价格元书券元书券外壳颜色有变客服电话教科书式道歉关注促销活动商品解决价格短时间随意变任性变遭遇几次吃亏留意到关注傻子耍想想细思极恐京东只能比价下单真买	物流磨磨唧唧倒说发货慢货品早配送站平时速度配送速度速度东西配送站早晨躺尸物流信息派送信息实在焦急问网上客服回应通知告诉东北下雪影响下雪天气依旧派送期间无数次骚扰客服答案依旧换电话客服手机号催说地址详细送错配送站帮转交送过来告知丢件问钱说一千这才调监控仔细排查中午找到去向下午送来算算配送站第三天送来期间态度不错配送流程扎心操碎母亲心	第一时间预订此款第一时间付尾款预订多花块钱发货拖半个多月好多买收到货焦急等待中一个多月送电子书券未到账不知猴年马月
doc 1	商品京东服务套装寄过来变裸机投诉告知外壳选京东购物糟心京东服务越来越差	补发购书券售后态度超级解决京东专属客服店铺客服两边踢皮球可想而知真碰到问题京东售后坑	特别不好打开闪屏做操作差点眼镜晃坏果断退货
doc 2	商品不错京东物流只用袋子送过来袋子折损好好包装套装售货清单里外壳发过来外壳返京豆不爽	阅读器皮套订收到阅读器保护套没收两个包裹京东快递员说包裹问客服没人回应	莫名其妙商店英文账户买书找不到这是第三个前两个设置情况先是半天不上账号买书一本找不到

在此例中，3个topic可以理解为商品折损，物流慢，闪屏。消费者购买时需要主要这些问题。

表4-4 好评结果（实例）

	topic 0	topic 1	topic 2
Keyword 0	屏幕	屏幕	看书
Keyword 1	阅读	完美	不错
Keyword 2	入门	看书	阅读
Keyword 3	终于	不错	真的
doc 0	心水终于到手有过一款一代送给朋友想着买终于入手一代摸质感更好重显示效果那种清晰简单配置推荐纠结容量小伙伴买版本反馈周期长看书实际上够用都行翻倍不行哈哈哈真的值得	基础班用户买基础版担心吃灰发现好用升级理由因素像素说基础版够用真的无法忍受毛刺感很强忘记屏幕电子背光因素基础版背光确实场景一体化屏幕清爽不易积灰整体性更强内存升级意义	阅读器买评价质量不错轻出门携带轻巧负担放包里没什么京东物流不错快递师傅态度机器包装简单操作繁琐平时手机习惯习惯几本书看书闪频还好确实眼晴好受点买想戒手机不知戒会员优惠点太力机器到手颜值力字调节买外壳随身带研究透机器开机待机时间还好希望阅读体验
doc 1	这是家第三个新款入门版分辨率高初代高加注音反应速度初代流畅出厂固件系统最新客服建议官网更新链接下载费劲放弃尺寸初代轻薄屏幕边框一体插头挺好用评论屏幕坏点广告挺喜欢推荐书想着关新服务书找到关键书设备太春节京东送货赞	带质保单公司同事买领导推荐书电子书不错书够用字体调节大小调整亮度免费推送文章不错够用快递太简陋原装薄盒子屏幕压碎幸好顺丰快递肯定摔次	买正好新品下手拿到失望阅读效果确实很棒特别电子墨水屏真的舒服一点不伤眼睛关键纸快递很快包装确实令人失望裸机加塑料包装真的担心物流中途机子弄烂幸好看书买个操作迟钝换闪手机灵敏阅读体验很棒系统算是预期效果
doc 2	利益相关用户先评价超级赞取快递拿错真的超薄工艺更新换代新屏幕阴阳屏反正屏幕坏点多存点儿书以供出差路上买实有接受系统存储管理软件占一部分容量防水仔细想想真的超赞生活中威胁解决买顺便买套子平时爱惜不用买膜超赞跟前一代相比阴阳屏真的屏幕歪斜赞	平面很爽待机时间蛮长配套餐买外壳不错看书网购有时候懒得评价京东配送服务一流送货快递员态度送货上门希望京东越做越提供更好商品服务	久评论压泡面神器看书真的躺床上用手不累加壳加壳磁吸控制屏幕唤醒睡眠晚上睡不着看看书瞬间想睡觉清晰度够放大用眼真的舒服比看电脑舒服不用打印适合深度阅读文献适合快速浏览文献翻页真的慢用邮件小说算反应速度真的很慢很慢用惯手机电脑肯定莫名缓慢反应速度有利于专注阅读状态说神器值得拥有

这三个topic可以理解为商品入手体验好，屏幕清爽，看书体验好。若满足消费者需求，则可以考虑购买。

3数据分析结论

通过以上介绍的方法，分析数据集，分别得出三款kindle的好评、差评结论

	558款关键词及解读	928款关键词及解读	1258款关键词及解读
好评	京东, 喜欢, 特别, 看书	电子书, 喜欢, 开心, 希望	屏幕, 阅读, 入门, 终于
	阅读, 真的, 不错, 学生	不错, 阅读, 看书, 喜欢	屏幕, 完美, 看书, 不错
	看书, 喜欢, 白色, 晚上	真的, 京东, 手机, 体验	看书, 不错, 阅读, 真的
	快递服务好，阅读体验好，白色好看	护眼，专注阅读，比手机阅读体验好	商品入手体验好，屏幕清爽，看书体验好
差评	充电, 翻页, 收到, 一点	电子书, 错误, 内容, 两天	京东, 下单, 购物, 商品
	京东, 自营, 电子书, 失望	屏幕, 闪屏, 郁闷, 确实	客服, 东西, 套装, 不错
	客服, 产品, 包装, 体验	京东, 东西, 不错, 看书	退货, 不好, 时间, 闪屏
	充电充不进去，客服态度差，京东自营物流和设备差	电子书内容少，屏幕闪屏	商品折损，物流慢，闪屏。

京东商品评论的分类预测与LSA、LDA建模

猜你喜欢