1. 使用10w条数据
评分分布情况:
2. 训练集、测试集、验证集为7:2:1
1)2分类(3分及以下标签为0,3分以上标签为1)
模型评估:
测试评论:
预测结果:
2)5分类(标签0-4代表1-5分)
模型评估:
测试评论:
预测结果:
3. 小结
1)二分类的准确率在85%左右,五分类准确率在60%左右
2)可能是因为高评分的数据较多,导致预测分数偏高
3)部分预测结果与原评论有差距
4. 后续改进
1)调整训练数据,尽量分布均匀
2)改进停用词表
评分分布情况:
1)2分类(3分及以下标签为0,3分以上标签为1)
模型评估:
测试评论:
预测结果:
2)5分类(标签0-4代表1-5分)
模型评估:
测试评论:
预测结果:
1)二分类的准确率在85%左右,五分类准确率在60%左右
2)可能是因为高评分的数据较多,导致预测分数偏高
3)部分预测结果与原评论有差距
1)调整训练数据,尽量分布均匀
2)改进停用词表