八爪鱼采集器(数据挖掘教程篇)

本教程将介绍其中一种较为简单的数据采集方式,下面教大家如何采集湘潭市雨湖区政府领导人2020年1-7月的工作重心

一、软件概述

八爪鱼采集器是一款免费使用操作简单功能强大高效采集的网页数据采集软件,可以将网页非结构化数据转换成结构化数据,以数据库或EXCEL等多种形式进行存储。

二、下载软件

1.进入八爪鱼官网:https://www.bazhuayu.com/download/windows
点击下载
在这里插入图片描述
2.下载后会在下载目录看到一个压缩包
在这里插入图片描述

三、安装软件

1.把之前下好的压缩包解压当前文件夹,会出现一个以exe结尾的文件,双击它打开
在这里插入图片描述
2.把默认安装路径的C盘改成D盘,只需改第一个字母即可,然后点击 安装
在这里插入图片描述
3.等待安装成功,然后点完成,会自动运行八爪鱼采集器
在这里插入图片描述
4.进入软件登录界面,假如没有账号进入官网注册一个,有账号直接登录
在这里插入图片描述
5.登录后的主界面
在这里插入图片描述

四、找好需要采集的网站链接

1.首先我们在百度搜索湘潭市雨湖区政府,很容易找到该政府网址
http://www.xtyh.gov.cn/
在这里插入图片描述
2.找到湘潭市雨湖区的领导人名字
在这里插入图片描述
在这里插入图片描述
3.在搜索栏搜索领导人名字,点击搜索
在这里插入图片描述
4.按时间排序,复制当前页面的网址
http://searching.hunan.gov.cn:8977/hunan/974104000/news?q=%E7%99%BD%E4%BA%91%E5%B3%B0&sm=1&searchfields=&timetype=timeqb&websiteName=&channelName=&whlx=&publishedYear=&site_name=&org_name2=&iszq=&aggr_iszq=
在这里插入图片描述

五、数据采集

1.打开八爪鱼采集器,把之前复制的网页粘贴在八爪鱼搜索栏,点击开始采集
在这里插入图片描述
2.得到当前页面,我们要对下方框框中的字段进行改动,删掉不要的字段,只留下标题,标题_链接,名称,时间四个字段
在这里插入图片描述
删除不需要的字段后得到下图
在这里插入图片描述
3.接下来我们要对字段进行排序,点击字段名前面的按钮左右拖动能改变字段的顺序在这里插入图片描述
字段排序后如下图
在这里插入图片描述
4.修改字段名,把标题_链接改成文章地址,把名称改成频道如下图在这里插入图片描述
5.翻页采集和滚动加载数据勾选上后,点击生成采集设置在这里插入图片描述
6.点击采集下一级网页数据
在这里插入图片描述
选择文章地址,确定
在这里插入图片描述
7.假如没有识别出想要的数据,下方没有正文字段栏,需要手动让进行采集
在这里插入图片描述
点击没有要采集的数据
在这里插入图片描述
手动选择正文内容,然后点击采集该元素的文本
在这里插入图片描述
然后把字段名称改成内容
在这里插入图片描述
8.点击采集
在这里插入图片描述
9.启动本地采集
在这里插入图片描述
10.正在采集中
在这里插入图片描述
11.等到采集完2020年的数据时,停止采集
在这里插入图片描述
12.导出数据
在这里插入图片描述
导出为Excel格式
在这里插入图片描述
保存到想要保存的位置,然后点保存
在这里插入图片描述
导出成功
在这里插入图片描述

六、整理数据

1.打开雨湖区搜索.xlsx文件
在这里插入图片描述
2.把时间那一栏的格式改成指定格式,复制发布时间:2020,点击查找
在这里插入图片描述
替换
在这里插入图片描述
点击全部替换,把发布时间:2020替换成2020
在这里插入图片描述
3.删除2020年以前的数据,选中,右键,删除整行
在这里插入图片描述
4.删除无效数据,如下图,内容为空的数据
在这里插入图片描述
5.Ctrl + S保存文件


到此,数据采集已经完成了,如果你还想学习数据导出、清洗、预处理、建模型、生成报告等,三步教你大数据分析。
请微信搜索公众号:宇哥数据分析工具箱

在这里插入图片描述
对大数据感兴趣的朋友,扫描关注,谢谢大家的支持!
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_33591873/article/details/107383265
今日推荐