大众点评评价情感分析~

先上结果：

糖水店的评论文本	模型预测的情感评分
‘糖水味道不错，滑而不腻，赞一个，下次还会来’	0.91
‘味道一般，没啥特点’	0.52
‘排队老半天，环境很差，味道一般般’	0.05

模型的效果还可以的样子，yeah~接下来我们好好讲讲怎么做的哈，我们通过爬虫爬取了大众点评广州8家最热门糖水店的3W条评论信息以及评分作为训练数据，前面的分析我们得知样本很不均衡。接下来我们的整体思路就是：文本特征处理(分词、去停用词、TF-IDF)—机器学习建模—模型评价。

我们先不处理样本不均衡问题，直接建模后查看结果，接下来我们再按照两种方法处理样本不均衡，对比结果。

数据读入和探索

import pandas as pd
from matplotlib import pyplot as plt
import jieba
data = pd.read_csv('data.csv')
data.head()

	cus_id	comment_time	comment_star	cus_comment	kouwei	huanjing	fuwu	shopID	stars	year	month	weekday	hour	comment_len
0	迷糊泰迪	2018-09-20 06:48:00	sml-str40	南信算是广州著名甜品店吧好几个时间段路过都是座无虚席看着餐单上 ...	非常好	好	好	518986	4.0	2018	9	3	6	145.0
1	稱霸幼稚園	2018-09-22 21:49:00	sml-str40	中午吃完了所谓的早茶回去放下行李休息了会就来吃下午茶了服...	很好	很好	很好	518986	4.0	2018	9	5	21	255.0
2	爱吃的美美侠	2018-09-22 22:16:00	sml-str40	冲刺王者战队吃遍蓉城战队有特权五月份和好朋友毕业旅行来了广州...	很好	很好	很好	518986	4.0	2018	9	5	22	255.0
3	姜姜会吃胖	2018-09-19 06:36:00	sml-str40	都说来广州吃糖水就要来南信招牌姜撞奶红豆双皮奶牛三星云吞面一楼 ...	非常好	很好	很好	518986	4.0	2018	9	2	6	184.0
4	forevercage	2018-08-24 17:58:00	sml-str50	一直很期待也最爱吃甜品广州的甜品很丰富很多样来之前就一直...	非常好	很好	很好	518986	5.0	2018	8	4	17	255.0

构建标签值

大众点评的评分分为1-5分，1-2为差评，4-5为好评，3为中评，因此我们把1-2记为0,4-5记为1,3为中评，对我们的情感分析作用不大，丢弃掉这部分数据，但是可以作为训练语料模型的语料。我们的情感评分可以转化为标签值为1的概率值，这样我们就把情感分析问题转为文本分类问题了。

#构建label值
def zhuanhuan(score):
    if score > 3:
        return 1
    elif score < 3:
        return 0
    else:
        return None
    
#特征值转换
data['target'] = data['stars'].map(lambda x:zhuanhuan(x))
data_model = data.dropna()

data_model

	cus_id	comment_time	comment_star	cus_comment	kouwei	huanjing	fuwu	shopID	stars	year	month	weekday	hour	comment_len	target
0	迷糊泰迪	2018-09-20 06:48:00	sml-str40	南信算是广州著名甜品店吧好几个时间段路过都是座无虚席看着餐单上 ...	非常好	好	好	518986	4.0	2018	9	3	6	145.0	1.0
1	稱霸幼稚園	2018-09-22 21:49:00	sml-str40	中午吃完了所谓的早茶回去放下行李休息了会就来吃下午茶了服...	很好	很好	很好	518986	4.0	2018	9	5	21	255.0	1.0
2	爱吃的美美侠	2018-09-22 22:16:00	sml-str40	冲刺王者战队吃遍蓉城战队有特权五月份和好朋友毕业旅行来了广州...	很好	很好	很好	518986	4.0	2018	9	5	22	255.0	1.0
3	姜姜会吃胖	2018-09-19 06:36:00	sml-str40	都说来广州吃糖水就要来南信招牌姜撞奶红豆双皮奶牛三星云吞面一楼 ...	非常好	很好	很好	518986	4.0	2018	9	2	6	184.0	1.0
4	forevercage	2018-08-24 17:58:00	sml-str50	一直很期待也最爱吃甜品广州的甜品很丰富很多样来之前就一直...	非常好	很好	很好	518986	5.0	2018	8	4	17	255.0	1.0
6	superclampfa	2018-08-15 00:39:00	sml-str40	补发点评目前为止吃过的最好吃的双皮奶没有之一去广州一定要尝试...	非常好	很好	很好	518986	4.0	2018	8	2	0	255.0	1.0
8	初小正	2018-09-15 22:26:00	sml-str40	广州很胖人忍不住的要吃糖水甜品南信的店面很好找上下九旅游区 ...	非常好	很好	非常好	518986	4.0	2018	9	5	22	255.0	1.0
9	水芙蓉88	2018-09-06 16:06:00	sml-str40	位于步行街上沿着步行街一直走就可以到达去的时候不用排队门口有...	很好	很好	很好	518986	4.0	2018	9	3	16	255.0	1.0
10	滚淡小姐	2018-09-12 20:44:00	sml-str40	不知道算不算网红只是在很多小伙伴的朋友圈都看到过自然要来打卡...	很好	很好	很好	518986	4.0	2018	9	2	20	255.0	1.0
11	请叫我伊丽莎丸袁哥	2018-08-22 11:30:00	sml-str50	这家店可谓是人气爆棚小贴士是座位先让同行小伙伴找好否则买好 ...	非常好	非常好	非常好	518986	5.0	2018	8	2	11	255.0	1.0
12	Hugewood	2018-08-09 13:03:00	sml-str40	这次是特地为了南信才去的上下九真的是一家很任性的店准点九...	好	很好	好	518986	4.0	2018	8	3	13	255.0	1.0
13	360_执着的马	2018-08-29 02:02:00	sml-str50	睡到自然醒又去上下九步行街的南信要一份姜撞奶一份莲子伴椰汁...	非常好	非常好	非常好	518986	5.0	2018	8	2	2	163.0	1.0
14	小昕子_17	2018-08-28 13:02:00	sml-str40	广州的老字号不少其中招牌中有文字的就有好几家每家都有自己的 ...	很好	好	好	518986	4.0	2018	8	1	13	255.0	1.0
15	lincolnsuper	2018-09-06 22:14:00	sml-str40	传统的广式甜品店就应该是这个样子店面不大店员都是有点年纪的...	很好	好	好	518986	4.0	2018	9	3	22	255.0	1.0
16	肥牛佳	2018-09-05 22:50:00	sml-str50	老广同事极力推荐的店铺在宝华面馆吃完主食一路散步过来接着战斗 ...	非常好	一般	一般	518986	5.0	2018	9	2	22	255.0	1.0
17	两活勿连	2018-09-11 13:18:00	sml-str40	上下九步行街上的网红甜品店人气爆棚门口有一面墙的各种认证获奖...	非常好	好	好	518986	4.0	2018	9	1	13	240.0	1.0
18	宝贝longan	2018-09-05 15:34:00	sml-str40	不是周末节假日在上下九步行街的南信甜品店也是人山人海就算肯一起...	很好	好	好	518986	4.0	2018	9	2	15	255.0	1.0
19	柚chopyf	2018-09-13 11:37:00	sml-str40	我为代言地址荔灣區第十甫路号近宝华路人均元左右在广州众多 ...	很好	很好	很好	518986	4.0	2018	9	3	11	255.0	1.0
20	suki_gb	2018-08-30 23:55:00	sml-str50	去广州玩美食当然不能辜负住在上下九晚上点出来觅食上看了别...	非常好	好	很好	518986	5.0	2018	8	3	23	255.0	1.0
21	几哩是块里脊_	2018-09-24 09:32:00	sml-str40	来了广州可以说出一系列小吃早茶肠粉烧腊甜品糖水汤品等从饮食文化...	非常好	好	好	518986	4.0	2018	9	0	9	255.0	1.0
23	树懒丹	2018-09-12 21:36:00	sml-str50	打卡广州上下九步行街那条类似于上海南京路步行街的街到处琳琅满目的...	非常好	非常好	非常好	518986	5.0	2018	9	2	21	255.0	1.0
24	忽忽_3307	2018-09-26 09:13:00	sml-str40	抱着很大期望去的人真的超级多买的门口的外带双皮奶和杨枝甘...	很好	一般	非常好	518986	4.0	2018	9	2	9	72.0	1.0
25	BerlinettaNNN	2018-09-25 23:37:00	sml-str10	超级恶心打包了三份回家吃到第二份的时候直接吃出不知道是什么...	差	差	差	518986	1.0	2018	9	1	23	114.0	0.0
27	ShinyNikki	2018-09-25 22:44:00	sml-str50	周二两天打三卡点评都不推送我让点评了哈哈今天去了北京路晚上 ...	非常好	非常好	非常好	518986	5.0	2018	9	1	22	255.0	1.0
28	爱吃甜食得小吃兔	2018-09-25 22:06:00	sml-str50	依旧那么好吃这次去竟然可以叫外卖了真好啊坐在酒店里就能吃 ...	非常好	非常好	非常好	518986	5.0	2018	9	1	22	146.0	1.0
29	C-zm_6372	2018-09-25 20:48:00	sml-str50	逛街正好经过就进去了椰汁香芋西米露和鲜虾云吞面也很好吃推荐推荐	非常好	非常好	非常好	518986	5.0	2018	9	1	20	47.0	1.0
30	ceciler	2018-09-25 16:30:00	sml-str50	朋友强烈推荐我来的吃过以后也就这样吧一般甜品店都做得出来而...	非常好	非常好	非常好	518986	5.0	2018	9	1	16	255.0	1.0
31	张菜菜8	2018-09-25 15:49:00	sml-str50	这家真的是很棒了是在广州吃到最喜欢的店了强推酸辣牛三星 ...	非常好	非常好	非常好	518986	5.0	2018	9	1	15	176.0	1.0
32	兔子need肉	2018-09-25 12:17:00	sml-str50	旅游必吃的一家非常好找看了菜谱感觉啥都好吃点了几个大众点评...	非常好	非常好	很好	518986	5.0	2018	9	1	12	255.0	1.0
33	C小姐觅食迹	2018-09-25 10:53:00	sml-str40	来广州必要吃南信啦一进店面人山人海的场景真实有被吓到位子自...	非常好	一般	一般	518986	4.0	2018	9	1	10	255.0	1.0
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
32445	lihuamama	2018-04-08 15:41:00	sml-str10	芋头椰汁西米露芋头是酸的不新鲜	差	好	差	521698	1.0	2018	4	6	15	23.0	0.0
32446	JJMiss~Z	2017-12-25 12:31:00	sml-str40	慕名而来的在西华路第一津里面一问好多人都不知道有些年的老铺 ...	很好	很好	很好	521698	4.0	2017	12	0	12	255.0	1.0
32447	Kary_BB_7754	2017-11-01 19:30:00	sml-str20	收银阿姨服务超级差多问一句就反白眼这么不耐烦就不要做服务行业 ...	非常好	好	差	521698	2.0	2017	11	2	19	121.0	0.0
32448	涴世亦踯躅	2017-10-31 07:49:00	sml-str40	沙湾小镇以前的老镇子大都是住在这里好多年的老街坊邻居学校旁边...	非常好	好	好	521698	4.0	2017	10	1	7	255.0	1.0
32450	vivi2008	2017-10-01 16:00:00	sml-str50	龟苓膏配炼乳芒果双皮特别好吃芒果又甜又新鲜椰奶红豆沙淡淡的甜...	非常好	很好	很好	521698	5.0	2017	10	6	16	52.0	1.0
32452	不知道起什么名字好	2017-07-07 16:27:00	sml-str40	杏仁炒奶糊浓浓的杏仁味好食其他地方都食唔道特地来食	很好	很好	很好	521698	4.0	2017	7	4	16	38.0	1.0
32453	mingmin9	2017-06-18 22:38:00	sml-str50	从我初中时期开到现在店内虽然环境不大可以称得上是老字号店啦...	非常好	非常好	非常好	521698	5.0	2017	6	6	22	161.0	1.0
32454	henry_gzw	2016-11-14 15:13:00	sml-str40	位于西华路广州有名的食街这家店做的时间应该算是数一数二的已出...	非常好	好	好	521698	4.0	2016	11	0	15	204.0	1.0
32455	bre比	2016-07-02 01:46:00	sml-str50	从家下楼走分钟就可以吃甜品好方便这家店起码在我初中懂事的 ...	非常好	非常好	非常好	521698	5.0	2016	7	5	1	255.0	1.0
32456	eaterp	2016-05-13 21:12:00	sml-str40	慕名而来感觉还是挺不错的地方虽然不大但是环境不错服务一般吧不过...	很好	好	好	521698	4.0	2016	5	4	21	151.0	1.0
32457	丫琪_6831	2016-01-07 13:50:00	sml-str10	口味好一般店员态度真的好差做生意做成这样不会再去了	差	差	差	521698	1.0	2016	1	3	13	38.0	0.0
32458	QI_285010384	2015-10-31 22:41:00	sml-str10	服务太度差出品慢味道比开记差	差	差	差	521698	1.0	2015	10	5	22	21.0	0.0
32459	iiiookkk	2015-10-06 19:09:00	sml-str50	千里迢迢跑过来不枉此行好吃	非常好	很好	非常好	521698	5.0	2015	10	1	19	18.0	1.0
32460	C+CL	2015-06-28 22:14:00	sml-str40	赞味道很不错双皮奶很好吃就是比较贵而且分量有点少	非常好	很好	好	521698	4.0	2015	6	6	22	37.0	1.0
32461	dpuser_0178821948	2015-02-02 20:41:00	sml-str40	回湖南前特别想吃广州的甜品为了让他送外卖点了五份吃的好 ...	很好	很好	非常好	521698	4.0	2015	2	0	20	69.0	1.0
32462	Eblank造梦	2014-07-16 21:20:00	sml-str40	凤凰炒奶吃到最后还有一个未熟的蛋黄味道很好吃过都说好店面有...	很好	好	好	521698	4.0	2014	7	2	21	59.0	1.0
32463	识事务者	2014-05-19 22:03:00	sml-str40	水准还可不过正如网支所讲有用塑料产品代替有些许倒胃口	非常好	好	好	521698	4.0	2014	5	0	22	39.0	1.0
32464	睇我唔岛	2013-09-20 20:21:00	sml-str10	升价后太少人去食食物唔新鲜今晚打包个芝麻胡翻屋企食一食落口一...	差	一般	差	521698	1.0	2013	9	4	20	68.0	0.0
32465	CarolLokyee	2013-08-01 21:11:00	sml-str20	外卖好像要买五碗才送有时候多人连电话也不听态度极差到店面 ...	好	一般	差	521698	2.0	2013	8	3	21	70.0	0.0
32466	小琼豆豆	2013-08-01 12:23:00	sml-str40	店面很不起眼在西华路里面以前价钱很划算现在升价了就比较少吃了	很好	很好	很好	521698	4.0	2013	8	3	12	47.0	1.0
32467	withdraw	2013-05-09 18:33:00	sml-str40	甜品老店每次来这里就要点一碗红豆双皮奶奶香红豆料足吃起来很舒...	很好	很好	很好	521698	4.0	2013	5	3	18	97.0	1.0
32468	台狼棒会	2013-05-02 18:40:00	sml-str40	今天专门去西华路美食之旅所以也来了这家店早上点多去的还没 ...	很好	好	很好	521698	4.0	2013	5	3	18	108.0	1.0
32469	我就是一只蛙	2013-04-24 23:20:00	sml-str50	好好吃真的不错一级推介苏上门吃过不过就系服务态度有点差接受到...	很好	好	好	521698	5.0	2013	4	2	23	62.0	1.0
32470	与猫看日落	2013-01-25 17:53:00	sml-str50	甜品的话这家已经很好了老城区好有广州格调街坊生意做得非常好...	非常好	非常好	非常好	521698	5.0	2013	1	4	17	79.0	1.0
32471	lilycat10	2013-01-25 17:42:00	sml-str50	真的是起沙的红豆沙非常好价钱便宜附近的邻居有福了推荐	非常好	非常好	非常好	521698	5.0	2013	1	4	17	41.0	1.0
32472	木頭woodwood	2012-02-22 04:27:00	sml-str10	年前啱搬嚟呢頭嘅時候呢間嘢喺我逢星期五嘅宵夜朋友嚟都...	差	一般	一般	521698	1.0	2012	2	2	4	190.0	0.0
32473	mj19910916	2011-12-30 18:44:00	sml-str50	这里好吃得太离谱了吧简直就是惊艳曾经冒名去过北京路和东山口 ...	非常好	非常好	非常好	521698	5.0	2011	12	4	18	216.0	1.0
32480	winny311111	2018-05-14 03:09:00	sml-str50	第二次来好吃第二次来好吃第二次来好吃	非常好	非常好	非常好	521698	5.0	2018	5	0	3	26.0	1.0
32481	Polykat_年嫿	2018-04-28 02:33:00	sml-str50	兒時的味道兒時的味道兒時的味道	非常好	很好	好	521698	5.0	2018	4	5	2	23.0	1.0
32482	不瘦到120斤不换ID	2018-04-09 01:22:00	sml-str50	好喝好喝好喝好喝好喝好喝好喝好喝好喝好喝好喝好喝好喝好喝好喝好...	非常好	非常好	非常好	521698	5.0	2018	4	0	1	56.0	1.0

21691 rows × 15 columns

文本特征处理

中文文本特征处理，需要进行中文分词，jieba分词库简单好用。接下来需要过滤停用词，网上能够搜到现成的。最后就要进行文本转向量，有词库表示法、TF-IDF、word2vec等，这篇文章作了详细介绍，推荐一波 https://zhuanlan.zhihu.com/p/44917421

这里我们使用sklearn库的TF-IDF工具进行文本特征提取。

#切分测试集、训练集
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(data_model['cus_comment'], data_model['target'], random_state=3, test_size=0.25)

#引入停用词
infile = open("stopwords.txt",encoding='utf-8')
stopwords_lst = infile.readlines()
stopwords = [x.strip() for x in stopwords_lst]

#中文分词
def fenci(train_data):
    words_df = train_data.apply(lambda x:' '.join(jieba.cut(x)))
    return words_df
 
x_train[:5]

26328    冲着 老字号 去 的 但 真的 不 咋 地 所有 的 东西 都 不是 先 做 的 点 了 煎...
3457                 名过其实 味道 一般 全是 人 价格 也 贵 感觉 碗碟 都 洗 不 干净
17834    香芋 西米 以前 系 北京路 个边 上班 落 左班 都 会同 同事 去 吃糖 上个星期 去 ...
7904     南信 的 双皮奶 非常 滑 不是 很甜 可是 很嫩 非常 美味 还有 鲜虾 肠有 好多好多 ...
3258     环境 真的 是 一般 可能 是 老店 的 关系 但 很 传统 双皮奶 奶味重 甜度 适中 粥...
Name: cus_comment, dtype: object

#使用TF-IDF进行文本转向量处理
from sklearn.feature_extraction.text import TfidfVectorizer
tv = TfidfVectorizer(stop_words=stopwords, max_features=3000, ngram_range=(1,2))
tv.fit(x_train)

C:\Users\Administrator\Anaconda3\lib\site-packages\sklearn\feature_extraction\text.py:300: UserWarning: Your stop_words may be inconsistent with your preprocessing. Tokenizing the stop words generated tokens ['ain', 'aren', 'couldn', 'didn', 'doesn', 'don', 'hadn', 'hasn', 'haven', 'isn', 'lex', 'll', 'mon', 'null', 'shouldn', 've', 'wasn', 'weren', 'won', 'wouldn', '１２', 'ｌｉ', 'ｚｘｆｉｔｌ'] not in stop_words.
  'stop_words.' % sorted(inconsistent))





TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.float64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=3000, min_df=1,
        ngram_range=(1, 2), norm='l2', preprocessor=None, smooth_idf=True,
        stop_words=['!', '"', '#', '$', '%', '&', "'", '(', ')', '*', '+', ',', '-', '--', '.', '..', '...', '......', '...................', './', '.一', '记者', '数', '年', '月', '日', '时', '分', '秒', '/', '//', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', ':', '://', '::', ';', '<', '=', '>', '>>', '?', '@'...3', '94', '95', '96', '97', '98', '99', '100', '01', '02', '03', '04', '05', '06', '07', '08', '09'],
        strip_accents=None, sublinear_tf=False,
        token_pattern='(?u)\\b\\w\\w+\\b', tokenizer=None, use_idf=True,
        vocabulary=None)

机器学习建模

特征和标签已经准备好了，接下来就是建模了。这里我们使用文本分类的经典算法朴素贝叶斯算法，而且朴素贝叶斯算法的计算量较少。特征值是评论文本经过TF-IDF处理的向量，标签值评论的分类共两类，好评是1，差评是0。情感评分为分类器预测分类1的概率值。

#计算分类效果的准确率
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import roc_auc_score, f1_score
classifier = MultinomialNB()
classifier.fit(tv.transform(x_train), y_train)
classifier.score(tv.transform(x_test), y_test)

0.9275308869629356

#计算分类器的AUC值
y_pred = classifier.predict_proba(tv.transform(x_test))[:,1]
roc_auc_score(y_test,y_pred)

0.889712635344161

#计算一条评论文本的情感评分
def ceshi(model,strings):
    strings_fenci = fenci(pd.Series([strings]))
    return float(model.predict_proba(tv.transform(strings_fenci))[:,1])

#从大众点评网找两条评论来测试一下
test1 = '很好吃，环境好，所有员工的态度都很好，上菜快，服务也很好，味道好吃，都是用蒸馏水煮的，推荐，超好吃' #5星好评
test2 = '糯米外皮不绵滑，豆沙馅粗躁，没有香甜味。12元一碗不值。' #1星差评
print('好评实例的模型预测情感得分为{}\n差评实例的模型预测情感得分为{}'.format(ceshi(classifier,test1),ceshi(classifier,test2)))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 1.330 seconds.
Prefix dict has been built succesfully.


好评实例的模型预测情感得分为0.824812345120737
差评实例的模型预测情感得分为0.7751377818748739

可以看出，准确率和AUC值都非常不错的样子，但点评网上的实际测试中，5星好评模型预测出来了，1星差评缺预测错误。为什么呢？我们查看一下混淆矩阵

from sklearn.metrics import confusion_matrix
y_predict = classifier.predict(tv.transform(x_test))
cm = confusion_matrix(y_test, y_predict)
cm

array([[  44,  387],
       [   6, 4986]], dtype=int64)

可以看出，负类的预测非常不准，433单准确预测为负类的只有15.7%，应该是由于数据不平衡导致的，模型的默认阈值为输出值的中位数。比如逻辑回归的输出范围为[0,1]，当某个样本的输出大于0.5就会被划分为正例，反之为反例。在数据的类别不平衡时，采用默认的分类阈值可能会导致输出全部为正例，产生虚假的高准确度，导致分类失败。

处理样本不均衡问题的方法，首先可以选择调整阈值，使得模型对于较少的类别更为敏感，或者选择合适的评估标准，比如ROC或者F1，而不是准确度（accuracy）。另外一种方法就是通过采样（sampling）来调整数据的不平衡。其中欠采样抛弃了大部分正例数据，从而弱化了其影响，可能会造成偏差很大的模型，同时，数据总是宝贵的，抛弃数据是很奢侈的。另外一种是过采样，下面我们就使用过采样方法来调整。

过采样（单纯复制）

单纯的重复了反例，因此会过分强调已有的反例。如果其中部分点标记错误或者是噪音，那么错误也容易被成倍的放大。因此最大的风险就是对反例过拟合。

data['target'].value_counts()

1.0    19916
0.0     1779
Name: target, dtype: int64

#把0类样本复制10次，构造训练集
index_tmp = y_train==0
y_tmp = y_train[index_tmp]
x_tmp = x_train[index_tmp]
x_train2 = pd.concat([x_train,x_tmp,x_tmp,x_tmp,x_tmp,x_tmp,x_tmp,x_tmp,x_tmp,x_tmp,x_tmp])
y_train2 = pd.concat([y_train,y_tmp,y_tmp,y_tmp,y_tmp,y_tmp,y_tmp,y_tmp,y_tmp,y_tmp,y_tmp])

#使用过采样样本(简单复制)进行模型训练，并查看准确率
clf2 = MultinomialNB()
clf2.fit(tv.transform(x_train2), y_train2)
y_pred2 = clf2.predict_proba(tv.transform(x_test))[:,1]
roc_auc_score(y_test,y_pred2)

0.899220190820394

#查看此时的混淆矩阵
y_predict2 = clf2.predict(tv.transform(x_test))
cm = confusion_matrix(y_test, y_predict2)
cm

array([[ 326,  105],
       [ 654, 4338]], dtype=int64)

可以看出，即使是简单粗暴的复制样本来处理样本不平衡问题，负样本的识别率大幅上升了，变为77%，满满的幸福感呀~我们自己写两句评语来看看

ceshi(clf2,'排队人太多，环境不好，口味一般')

0.352913902404629

可以看出把0类别的识别出来了，太棒了~

过采样（SMOTE算法）

SMOTE（Synthetic minoritye over-sampling technique,SMOTE），是在局部区域通过K-近邻生成了新的反例。相较于简单的过采样，SMOTE降低了过拟合风险，但同时运算开销加大

对SMOTE感兴趣的同学可以看下这篇文章https://www.jianshu.com/p/ecbc924860af

#使用SMOTE进行样本过采样处理
from imblearn.over_sampling import SMOTE
oversampler=SMOTE(random_state=0)
x_train_vec = tv.transform(x_train)
x_resampled, y_resampled = oversampler.fit_sample(x_train_vec, y_train)

#原始的样本分布
y_train.value_counts()

1.0    14920
0.0     1348
Name: target, dtype: int64

#经过SMOTE算法过采样后的样本分布情况
pd.Series(y_resampled).value_counts()

1.0    14920
0.0    14920
dtype: int64

我们经过插值，把0类数据也丰富为14923个数据了，这时候正负样本的比例为1:1，接下来我们用平衡后的数据进行训练，效果如何呢，好期待啊~

#使用过采样样本(SMOTE)进行模型训练，并查看准确率
clf3 = MultinomialNB()
clf3.fit(x_resampled, y_resampled)
y_pred3 = clf3.predict_proba(tv.transform(x_test))[:,1]
roc_auc_score(y_test,y_pred3)

0.9010351597358558

#查看此时的准确率
y_predict3 = clf3.predict(tv.transform(x_test))
cm = confusion_matrix(y_test, y_predict3)
cm

array([[ 326,  105],
       [ 613, 4379]], dtype=int64)

#到网上找一条差评来测试一下情感评分的预测效果
test3 = '糯米外皮不绵滑，豆沙馅粗躁，没有香甜味。12元一碗不值。'
ceshi(clf3,test3)

0.22919320383366565

可以看出，使用SMOTE插值与简单的数据复制比起来，AUC率略有提高，实际预测效果也挺好

模型评估测试

接下来我们把3W条数据都拿来训练，数据量变多了，模型效果应该会更好

#词向量训练
tv2 = TfidfVectorizer(stop_words=stopwords, max_features=3000, ngram_range=(1,2))
tv2.fit(data_model['cus_comment'])

#SMOTE插值
X_tmp = tv2.transform(data_model['cus_comment'])
y_tmp = data_model['target']
sm = SMOTE(random_state=0)
X,y = sm.fit_sample(X_tmp, y_tmp)

clf = MultinomialNB()
clf.fit(X, y)

def fenxi(strings):
    strings_fenci = fenci(pd.Series([strings]))
    return float(clf.predict_proba(tv2.transform(strings_fenci))[:,1])

C:\Users\Administrator\Anaconda3\lib\site-packages\sklearn\feature_extraction\text.py:300: UserWarning: Your stop_words may be inconsistent with your preprocessing. Tokenizing the stop words generated tokens ['ain', 'aren', 'couldn', 'didn', 'doesn', 'don', 'hadn', 'hasn', 'haven', 'isn', 'lex', 'll', 'mon', 'null', 'shouldn', 've', 'wasn', 'weren', 'won', 'wouldn', '１２', 'ｌｉ', 'ｚｘｆｉｔｌ'] not in stop_words.
  'stop_words.' % sorted(inconsistent))

#到网上找一条差评来测试一下
fenxi('糯米外皮不绵滑，豆沙馅粗躁，没有香甜味。12元一碗不值。')

0.2723496698366991

只用到了简单的机器学习，就做出了不错的情感分析效果，知识的力量真是强大呀，666~

后续优化方向

使用更复杂的机器学习模型如神经网络、支持向量机等
模型的调参
行业词库的构建
增加数据量
优化情感分析的算法
增加标签提取等
项目部署到服务器上，更好地分享和测试模型的效果

文本挖掘&情感分析