数据科学分析中国近三千年的人口和经济

摘 要

数据科学作为一门跨领域的交叉学科,我们需要利用一系列技能(统计学、计算机和业务知识)来分析从网络、智能手机、客户、传感器等来源收集的数据。上次Ofter分享了一篇多语言动态数据可视化大屏的文章(附源码),反响不错,不想错过的可以进入以下链接学习和获取资料:
https://mp.weixin.qq.com/s/zZuZq54f2nazaXQT5El8fw

今天,Ofter要用炫酷的数据科学方法为大家演示中国近三千年人口的变化和经济的发展,Ofter也是从中学习到了很多,看完本篇分享,您将了解以下内容:

  1. 有哪些免费的公开数据平台,可供学习和下载?
  2. 网上收集来的数据有缺失,该如何处理?
  3. 如何制作一个炫酷、实用、清晰的可视化图表?
  4. 中国哪些年代的人口比较少,哪些朝代的经济发展得比较好...

用数据科学分析的过程,其实也是我们深度学习的过程,所以尽情享受吧!

一、数据采集

首先,Ofter真的要感谢一下那些研究历史发展的工作人员,因为古代很多的记载都是残缺不全的,我们要采集的人口、GDP数据需要研究人员查阅巨量的典籍和著作,然后经过一系列的换算、对比,才能得出比较准确的数据。Ofter查阅了《中国人口史》、《简读中国史:世界史坐标下的中国》、《The handbook of historical economics》等,同时下载了国家统计局、世界人口网、世界银行等平台的数据进行比较,才得到从公元前221~公元2020年不到10%的数据。

所以,我们大部分时间都是和数据杠上了。

二、数据处理

幸好这10%的数据基本上涵盖了每个朝代,而且这些数据都是各朝代比较有代表性的年代统计而来。Ofter想了2个方法来填补这些缺失的数据:

1)因为古代的人口和GDP变化不会太大,所以Ofter采取两个相邻有数据的年代连成一条线,这两个数据之间的所有空数据都满足这条线的方程;

2)采用线性回归的方法,得到一条近似曲线,以此来计算空数据。

若想知道什么是线性回归,请参考机器学习-数据分析实战教程:

https://mp.weixin.qq.com/s/y-D-zTX5QxW02-ybtDlv-g

最终,我们得到一份比较完整的年份、人口、人均GDP、GDP的数据集。

三、数据可视化

Ofter采用pycharm工具,用vue和echarts来完成这个动态可视化图表。echarts官网有类似的图表模板,可以找一个与实现要求近似的图表代码,下图这个和Ofter想实现的样式比较贴切,年份作为x轴,其他3个数据(人口、人均GDP、GDP)作为y轴。

具体实现方法,Ofter已经在上篇《多语言动态数据可视化大屏(附多套源码)》中写的很详细了。当然这个图没法满足Ofter炫酷的要求,所以Ofter在此基础上进行了一些改进,如下:

如果需要源代码,请点击下方(或评论处)链接获取。

四、完整资料获取

1. 数据采集:公开数据平台

这几个公开数据平台经过Ofter精心挑选,绝对免费,而且数据质量比较高。

2. 数据处理源码和数据集

1)填补缺失数据的2种算法源代码

2)Ofter采集的原始数据与经过处理的excel数据

3)填补缺失数据的多项式回归源代码(同3.数据可视化源代码)

4)excel转json,json转数组的工具

3. 数据可视化源代码

1)Ofter多语言动态数据可视化大屏源代码

2)中国近三千年人口与GDP源代码(含json数据集)

3)多项式回归源代码(人口)

猜你喜欢

转载自blog.csdn.net/weixin_42341655/article/details/122935310
今日推荐