[源码和文档分享]基于Python实现的论坛帖子情感分析

一、课程项目

Scuinfo文本分类分析

二、项目类容

爬取川大匿名社区SCUinfo在一段时间内的帖子,对其进行情感分类分析,包括情绪分类(积极,消极),帖子内容关联分析等。

三、个人工作完成报告

3.1 工作概述

负责数据收集、预处理以及简单的情感分析

3.2 爬虫方案

scuinfo为动态加载网页,并且有移动端验证,尝试使用scrapy爬取数据失败,需要对爬虫进行大量定制优化,为了提高开发效率,最终使用了之前爬取QQ空间采用的方式:使用selenium库调用firefox浏览器驱动,该再通过代码模拟人为操作浏览器。获取到对应页面数据后,使用etree和xpath选取相应的目标节点数据。

  • 优点:轻松解决网页动态加载,登录验证,移动端验证等问题

  • 缺点:该方式需要一直保持浏览器前台运行,并且只能为单线程模式,爬取效率相对较低

关键代码如下所示:


参考文档和完整的文档和源码下载地址:

https://www.write-bug.com/article/1272.html

猜你喜欢

转载自blog.csdn.net/demongwc/article/details/84823456
今日推荐