Power BI批量获取网页数据——阳光高考全国高校基础数据分析(2)

上一篇文章我们已经分析里如何批量获取网页数据:https://blog.csdn.net/yeyuanxiaoxin/article/details/104572589

这里,我们想对获得的全国高校基础数据进行数据清洗与建模数据分析和可视化

数据清洗与建模

1、提升标题:将第一行用作标题

2、更改表格名称,方便观察理解

3、提取省份信息

4、使用删除其他列或删除列功能,删除多余信息

5、使用拆分列和替代值功能进行标题与文本内容清理与信息提取

6、继续处理第一张表

7、然后整理标题行方便观察和分析,重命名

8、关闭并应有编辑,查看进行建模情况

9、如果没有完成建模关联,这里点击建模页面进行“管理关系”操作,使得两表关联


首先看一下从网页获得的源数据结构:

这里数据相对干净,只需要进行简单的处理就可。

数据清洗与建模

1、提升标题:将第一行用作标题

2、更改表格名称,方便观察理解

3、提取省份信息

这里我根据文本特征判断,选择先复制表格,然后删除重复项

这里我们使得得了数字列(第一列)与所有省份信息(第二列)一一对应

4、使用删除其他列删除列功能,删除多余信息

5、使用拆分列替代值功能进行标题与文本内容清理与信息提取

进一步清理,提取各省高校数

备注:这里如果前面步骤无法使用删除重复值,我们也可以使用文本筛选器功能,如下:

通过特征筛选,筛选出文本中含有“所”得行,得到所有省份信息

所有数字与省份信息一一对应

6、继续处理第一张表

需要去除下面这类多余数据,这类我们就可以用文本筛选器

具体操作如下:

7、然后整理标题行方便观察和分析,重命名

8、关闭并应有编辑,查看进行建模情况

9、如果没有完成建模关联,这里点击建模页面进行“管理关系”操作,使得两表关联

到这来,数据清理就完成了。

接下来,下一篇文章我们来进行数据的可视化展示。

发布了50 篇原创文章 · 获赞 14 · 访问量 7957

猜你喜欢

转载自blog.csdn.net/yeyuanxiaoxin/article/details/104572948