简述网络舆情之海量数据收集流程

一、大数据调查研究的流程
1、明确问题:确定清晰的调研目标
2、数据来源:选择数据,数据从哪里来,数据的获取
3、数据处理:哪些数据有用,数据的处理、清洗
·预处理——归一化——数据清洗——去除重复数据——连接
4、特征工程:构建数据分析维度,知识图谱与知识库,给数据打上特征标签
5、建立模型:构建分析指标及模型。模型是指对于某个实际问题或客观事务、规律进行抽象后的一种形式化表达方式,任何模型都有三个部分组成:目标、变量和关系
6、评估及展示:数据可视化及成果应用
·数据分析报告(调研报告):项目背景及目标——数据说明及获取方法(报告采用的什么数据以及获取方法,主要的分析方法及关键技术点)——数据概览(是对指标的整体发展趋势和变化情况,例如在时间序列上对最高点最低点做成因解释)——数据细分(对某指标按照不同的维度做分析,做细节补充,这也是数据分析时常用的方法,多维度分析)——结论汇总——改进策略或方案(需要在数据分析的结论和问题的基础上,对后续的迭代和改进措施作出方向性的说明)

二、网络舆情分析内容
1、舆论环境背景分析
·舆情环境背景,例如:行业特点,政策背景,经济环境,历史沿革等等
2、舆情走势分析:分析网络舆情事件的舆情热度走势,首先要理解网络舆情的生成机制
3、传播分析
4、情感倾向性分析
5、高频热词/舆论观点分析

三、做事件舆情分析具体步骤与内容
第一步:事件数据获取
①制定关键词:在海量大数据平台,可进行制定关键词的操作
②获取数据:将爬取的数据与excel连接
③数据清洗:制定一个判定图(判定图为数据分析师提供了可视化的需求输入交互界面,分析师可用将数据的操作需求表示在判定图中,用于回溯或标引数据,并给数据打上对应的标签)
第二步:舆情声量/热度发布状况(可用软件power BI)
第三步:结合海量大数据平台和power BI对所需要的数据(如:评论数增长情况、传播渠道种类情况等等)的进行分析展示

ps:对于爬取大量数据,推荐使用海量大数据平台,非常方便(没有收广告费,没有在打广告哦)

猜你喜欢

转载自blog.csdn.net/qq_52669357/article/details/121435474