廊坊师范学院吧网络舆情分析报告

1.背景介绍

1.1大数据背景
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键。 随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

1.2技术
1.2.1 Python语言
Python语言是一种开源的面向对象的脚本语言,网络上有关于python语言的历史,这里不再论述,为什么选择python语言?因为python简单易学,它是一门解释性编程语言,在你写完毕后可直接执行,不需要编译,发现bug后立即修改;代码的重用性也非常高,可以把包含到某个功能的程序当作模块代入到其他程序中使用,因而python的模块类库大到恐怖,几所无所不包;它的跨平台性,几乎所有的python语言都可以不加修改的运行在不同的操作系统平台,得到同样的结果!所以选中有这么多优点的python!

1.2.2爬虫技术
网络爬虫,又被称为网页蜘蛛,网络机器人,是一中按照一定的规则,自动的抓取互联网信息的程序或者脚本。很多站点,尤其是搜索引擎都在使用网络爬虫提供最新的数据。它用于提供所访问过网页的一个副本,然后,搜索引擎就可以对得到的页面进行索引,达到快速访问的目的。爬虫也可以在Web上用来自动给执行一些任务,例如检查链接,确认HTML代码;也可以用来抓取网页上的某种特定类型信息,例如抓取电子邮箱地址(通常用于垃圾邮件)。网络爬虫技术广泛应用于互联网企业!

1.2.3数据分析
我们通过python语言编写网络爬虫爬取网页的数据,最终通过数据分析挖掘到深层信息,目前有很多在线版做数据分析的工具,但强大的Excel是所有数据分析的基础与数据来源,由于Excel设计到复杂的函数,很多时候可以结合使用!数据分析的目的不光是为了我们能够得到深层数据信息,也是我们对未来预测的一个强大科学的依据!
1.3大数据下社会的宏利
1.3.1机器代替人工
人类有时候需要完成重复性劳动,比如统计某项信息,需要从数据源不停的判断数据,然后不停的复制粘贴到本地,得到大量信息,这样的单纯性重复劳动,完全可以由机器取代,我们可以设定一个程序,来帮我们完成这件事情,机器不怕重复性劳动,这属于机器最爱干的事!身处信息化时代,机器代替人工,这是这个时代赋予我们每个人的宏利!

1.3.2从数据中发掘有用信息
这些信息被广泛应用于商业开发和科研领域,少量的用于个人需求!几乎大数据的结论用于我们生活的方面!


2.本次实验

2.1准备阶段:
2.1.1申请项目:
确定研究方向,研究目的,主要安排:1、在前期基础上阅读大量的文献,并确定网络舆情分析的具体内容。 2、根据确定的研究内容,用爬虫软件爬取相关网络评论等信息,并进行数据信息采集和预处理。3、对预处理后的爬取信息进行统计分析和挖掘预测,监测网络舆情的现状和发展趋势。4、对网络舆情的结果进行展示,以可视化的方式展示研究结果。5.实施计划:按照时间计划进行。6.技术路线:技术难点在于如何从论坛中爬数据,如何对数据进行分析。用先有软件将数据分离,通过软件进行数据分析。7.人员分工:负责人负责项目的整体进程,并合理分配项目内容,成员协作负责人进行项目内容。每个人负责自己的部分,以互联网为主要工具,通过自主学习,小组合作进行。

2.1.2导师指导:
预先难点问题的引导点播,在项目中遇到的问题,导师根据自己的经验点到。实施过程中加以完善,遇到难以解决的问题,导师带领学生一起想办法完善,解决问题!

2.2实施阶段:
2.2.1八爪鱼采集器采集贴吧内容
由于数据量较为庞大,本次采集近一个月的贴吧内容进行分析,包括贴吧标题,网址,楼层,发帖人,本吧等级,内容,来源,时间等。

2.2.2python做数据除重处理
**这里写图片描述**

2.2.3数据可视化统计
本次数据可视化统计在数据除重后使用语义分析系统和BDP在线数据分析

①由贴吧标题分析得到实体关系图
这里写图片描述
从【实体关系图】中,由于分析内容由文本出发,涉及3大部分,主要是地名,时间,事情内容,从中我们可以推测出贴吧上的问题,学生主要关注的问题类型重要是什么时间在什么地方发生了什么事情,贴吧上的内容还是很贴近学生的大学生活,是同学们交流问题的很好的平台,通过这种途径关心身边发生的时事!

②由贴吧标题分析得到词频统计图
这里写图片描述
这里写图片描述
这里写图片描述
从【词频统计图】分析来看,大家在贴吧上关注的方向主要是学业,毕业发展以及日常生活健康等问题。在学业上较多的关心学校发展、对本地生活的问题和未来考研问题;对毕业上关注的方向主要集中集中在毕业的一些问题和不懂问题的提问获解答上;日常生活上的词频分布较为均衡,没有很突出的方向,说明大家精神情感上的发展较为均衡!

③由贴吧标题分析得到文本分类图
这里写图片描述
从【文本分类图】上,验证了我们贴吧的创立主题,主要的文本内容都是关于教育的内容,为广大学生提供了教育方面的一个很好的交流平台!

④由贴吧标题分析得到情感分析图
这里写图片描述这里写图片描述
从【情感分析图】来看,分析统计的结果也是很不错的,各种情感都有不同程度的体现,不过好的方面为多,正能量多于负能量,分析统计结果也很好的印证了之前很多专家对大学生的情感分析!通过情感分析图,我们能够大致了解到本校学生中和各个方面的情感状态,及时加以引导和预防!

⑤由贴吧标题分析得到特定人物分析图

这里写图片描述 这里写图片描述

从【特定人物分析图】结果,我意外的发现了一个人的的出现频度很高。我们预先并没有设置通过人名分析任务,这个特定人物分析师通过文本内容分析得到词频最高的人,在对关于这个人文本内容进行语义分析得到的结果,贴吧内容出现的米新江是本校计算机基础部的一名教授,从人物分析数据图中可以看到大家对米新江教授的评论不一,但从正负面得分分析看出,关于米新江教授大家更多是好评,其实我们经常因为某人某句话对别人有好或不好的印象,但是这样小数据量不足以说明问题,我们通过特定人物分析得到了一个较为科学的结果,大数据的分析,结果更有可靠性,这也是数据分析带来的一大好处!

⑥由贴吧标题分析得到word2vec分析图
这里写图片描述
从【word2vec分析图】的结果,从不同的角度的看,结论不同,如果这个结果从老师的角度,可以验证大家的大学生活的主题,关于实验,考试,专业课,风采录,同学们的生活统计分析结果落在了预计的教学范围内,说明教学的成果不错的,起到了积极影响学生的作用,但对于广大社会人士,分析结果也可以收廊坊师范学院的一张响亮的名片,从中看出校园厚重的历史文化,校风求真务实,学生的状态:奋发学习 刻苦认真 精益求精 争创一流 一丝不苟 脚踏实地 力戒浮夸。

⑦由贴吧标题分析得到的敏感词分类图
这里写图片描述
从【敏感词分类图】分析结果,
Sensitive
SQ:61(67.03%)
Sensitive
JYY:30(32.97%)
在分析处理结果中,会用缩写的形式来代表其中的敏感词,敏感词是之前就软件设定好的,通过对比分析,得出本内内容中的敏感词,但是本软件有个bug,它不告诉你这些缩写的意思,目前猜测,这些敏感的词来源可能是发帖回帖时大家情绪过于激动,带有了一些不文明词语,因而被检测出来,如SQ可能是傻缺的意思!敏感词的分析有待完善!
⑧由贴吧标题分析得到词云图
从【词云图】的分析结果来看,我们能够明显直观的看到大家最近的关注问题有哪些。从分析结果来看,主要以学业为主,专业课,专接本,考研的方向居多。生活上大家也比较奔放,游戏,创业,恋爱,招聘都有涉及!

⑧由贴吧标题分析得到设备分类图

这里写图片描述
设备分类图是根据 分析得到的结果!
从【设备分类图】中我们可以看到贴啊内容的设备来源分布,从设备分布图上,我们分为6类,有一类中没有检测到设备,猜测可能是用PC机留下的记录,从结果上也反应出移动客户端的使用分布,近7成的人使用移动客户端来发帖回帖,从侧面反应了移动设备的使用越来越方面,所以在贴吧的设计上我们可以在移动界面的设计上多下功夫,提高用户的体验!

⑨由贴吧回帖内容分析得到的词云图以及分析内容相关性分析

这里写图片描述这里写图片描述
从贴吧内容的分析统计结果【词云图内容相关性分析】【内容相关性分析】中我们可以直观看到大家感兴趣的话题,以及这些话题的相关性!

2.2.4得出科学的数据结果
本次的报告是我们对之前采取措施的一些验证,也是我们对未来发展规划的一个依据,验证了我们教学的成果,对我们学校和社会未来的规划发展提供了宝贵的一手资料!2.3结束阶段:
结束报告的撰写和修改
2.4实验收获:
2.4.1能力
其实学生的自我控制能力和自主学习能力都是具备的,只是现有的教育模式并没有使其得到发挥,学生本人也根本不知道应该怎么利用。本次项目的实践充分锻炼了自学能力!明白了培养团队精神的重要性,其重要性在于:1、利于塑造良好的个性人格。2、利于人的综合素质的提高。一个团队不是一个人的团队,而是大家的团队,积累经验关于团结队友这方面,明白了,团队精神强调的不仅仅是一般意义上的合作与齐心协力,而是团结协作,优势互补,利用个性和能力差异,发挥积极协同的效应。
2.4.2大数据的相关知识
在项目的实践过程中了解了很多关于科技前沿的知识,这些是在课堂上学习不到,比如数据采集的过程,数据模型,数据处理,数据集成,机器学习,神经网络的相关知识!
2.4.3Python语言的使用
相比与之前的语言,这次的python真的是零基础开始学,利用之前其他语言的经验,学习python,类比分析!
2.4.4爬虫的实战
爬虫是本次研究的重点,也是python研究的一次主要方面,这次连接了很多爬虫的类型,和爬虫的组成,代码的相关知识!
2.4.5数据分析的统计
数据分析是本次项目的关键,所有的数据最终都落在了数据分析的部分,得出可视化的结论以供使用!数据分析在大数据领域的地位至关重要!从项目的实践过程中,了解到目前的数据分析领域的成熟度,这项技术已经发展的很不错,但相对非专业人士上手来说还是比较困难的!可以在这个方面做一些改进!
1. 经验
关于软件的快速安装与使用,本次使用的软件主要是python3.3 和Anaconda!数据分析软件Excel\语义分析系统和BDP在线数据分析
项目实践问题的解决提高了自己的动手能力和自己解决独自解决问题的能力!

3.研究结论

3.1本次内容的科学分析
从本次实践研究来看,从使用群体,到人物言论分析,我们从这一个方面分析了廊坊师范学院大学生的学习生活,日常关注问题!从学生身上侧面反映出学校崇尚学术,重视科研。以服务人才培养,服务现代化建设,培育学科增长点为目标,大力加强科研工作,学术氛围浓厚。
3.2不足有待完善部分
在发帖和回帖的人物关系之间,我们可以继续做出分析,分析人物关系,但由于数据量太大,目前这一部分正在研究中,使用ucinet软件做出人物社会网络分析图,进而得到更加精准的信息!

猜你喜欢

转载自blog.csdn.net/zhaofen_7/article/details/80041889