05/09报告

1. 使用10w条数据

        评分分布情况:

 2. 训练集、测试集、验证集为7:2:1

        1)2分类(3分及以下标签为0,3分以上标签为1)

        模型评估:

        测试评论:

        预测结果:

        2)5分类(标签0-4代表1-5分)

        模型评估:

         测试评论:

         预测结果:

3. 小结

1)二分类的准确率在85%左右,五分类准确率在60%左右

2)可能是因为高评分的数据较多,导致预测分数偏高

3)部分预测结果与原评论有差距

4. 后续改进

1)调整训练数据,尽量分布均匀

2)改进停用词表

猜你喜欢

转载自blog.csdn.net/qq_40206924/article/details/130565365