全国人口流动规模分析

一、项目背景及目的

  2019年12月,我国出现了新型冠状病毒引发的多起病例,全国逐渐开启疫情防疫监控,严重地区甚至实施封闭管理。2月是疫情的高发期,各地区的人员流向、时间分布和规模化是本项目的主要分析目标,目的是分析人员流动规模的对比变化。

二、分析维度

  根据现有的数据和分析方法,本项目分为三个维度进行分析:

  1.地区间人员流向维度

   根据不同省份,不同城市的人员流向,由省份-省份,城市-城市,省份-城市细分分析不同地区复工的情况。

  2.日期维度

     拆分时间段,计算不同时间段人员的流向。

  3.人员规模维度

      由流出地的规模指数和规模指数百分比,对比不同地区和时间,分析人员流动的规模化程度。

三、分析项目

  1.数据来源及含义

  本项目数据来源于百度迁徙2020年2月1日-2020年3月1日的全国各地流动规模指数,数据约有160万条。'百度迁徙' 数据集字段包括流出省、流入城市、流入省、流入城市、日期、规模指数百分比乘积,‘百度迁徙指数’ 数据集字段包括省份、城市、日期、今年规模指数、去年规模指数。

  数据集的字段含义如下:

  '百度迁徙' 数据集

  id:编号

  origin_province:流出省

  origin_city:流出城市

  dest_province:流入省

  dest_city:流入城市

  cur_date:日期

  compare:规模指数百分比乘积

  ‘百度迁徙指数’ 数据集

  id:编号

  province:省份

  city:城市

  cur_date:日期

  migrate_this:今年规模指数

  migrate_last:去年规模指数

  2.数据清洗

  数据库采用Mysql,通过Navicat导入数据。

  

   

   数据没有出现缺失值,也没有出现异常值,故数据可以做完整分析。

  3.建立模型和可视化

  (1)地区间人员流向分析

    

     

     数据集包含了31个省份(不包括港澳台地区),365个城市。

    每个人口迁入城市只取所占比例较高的前100个流入城市,例如承德市的迁入人口来源于占总量比17.51%的唐山市、15.81%的北京市、13.32%的赤峰市等前100个城市。

    “规模次数”含义:每个迁入城市占比前100个流入城市的流入迁移次数,例如厦门市向承德市迁入人口的每一天占比排在前100,则一共有29次规模次数,泰安市向广安市迁入人口只有5天排在前100,则规模次数为5次。

    a.省份流动规模次数分析

    

     

            

          流入规模次数最多是广东省,其次是江苏省,山东省。

          

              

             

   流出规模次数最多是河南省,其次是广东省,四川省。

  上面所示流动规模次数较多的省份都是人口大省,人口数量基本上在1亿以上,外出务工成为人口流动的主要驱动力。在2月一个整月期间,广东省成为流入规模次数最多的省份,流入次数比流出次数高出三分之一,表明了广东省的人口流动数量大。其次西北地区的省份和4个直辖市,人员的流动规模次数的波动较小,因为西北地区地方经济较落后,人口少,地理位置和交通不方便以至于流入的人口少,而4个直辖市是因为地方面积小,人口基数小,变动幅度也较小。

     

   

   上图显示流入规模次数最多的广东省,其人员来源于临近省份的湖南和广西,同时,作为人口输入大省的广东也有反向输出,整体的流动性相比其他省份高。

   b.城市间流向分析

  

      

      

      

        可以发现,城市的流动规模次数与区域、经济、地理位置等有关,而且全国365个城市,在2月期间有152个城市的规模次数是为正值,213个城市为负值,意味着人口流动是有分布性的,尤其集中在某一个区域。大部分城市集中在东部地区,各省份的省会城市。

  

   

   在Mysql导入查询的数据,经过excel透视整理,达到2月一整个月向不同省份特定城市流向的城市数量,最多的是北京市,有202个城市连续每日规模性输出人口,其次是上海、重庆、深圳、广州、天津、成都等相对经济发展较好的城市圈。二线城市的的数量也占据大部分,原因在于生活成本低,有些是省会城市,最为一个省份最为核心区域,也是吸引人口流向的一个因素。

           

     

     

     

     

    我国有4个直辖市,其中上海市的主要人口流入城市来自苏州,苏州是上海的‘’后花园‘’,紧贴上海市,人口流入比例高;北京市的人口流入城市来自廊坊市,很多在北京工作的人选择住在廊坊,以此廊坊市是北京市的人口输入的持续性最长的城市;唐山市紧靠天津市,但是天津市的面积小,迁徙规模比例要小于其他城市;重庆市近年的发展尤其迅速,不断吸引外来人口,广安市是重庆市的主要流入人口输送地。

   (2)人口流动日期分析

    

     

   2月1日是春节假期第一个开工日,但因为今年国内的疫情正值严格的防疫期,各省份都颁发了延迟复工复业的文件,但由于有些行业需要实时运转,以此在2月1日,2月2日出现了人口流动规模次数较高,也就是返程高峰的现象。随后的两周内,流动规模的次数不断减少,一方面是因为企业鼓励员工在家办公,另一方面是各地实时封锁道路管理,以往春节的出行活动大幅度减少。直到2月17日开始,流动规模次数逐渐增多。

   

   剔除省内之间的流动,我们将全国的流动规模次数与省份间的流动规模总次数对比,如下:

  

   可以看出,省份间流动占全国流动的比例在89%-91%区间段,占比线与流动规模次数是相贴合的。同比可得,省份间的流动是人口流动的主要动力。

  

   

   从流出规模次数较高的河南省来看,主要集中在2月最后一周和2月第一周,这两个星期是返程的高峰期。而广东省和四川省主要的高峰期在2月的第一周。根据查询的数据显示,江苏、安徽、山东、湖南等省份的流出规模次数也比其他省份要高,主要在于向邻近的省份移动,大多是因为工作需求。

  

   

   流入规模最多的省份是广东,主要集中在元宵节之后的返程,其次是浙江和江苏,集中在最后一周。由此也可见,广东一整个月都处于流入规模次数靠前的省份,每天的次数也没有太大的差距,处于一个稳定的流入现象。

   

   

   最后一周的迁徙规模指数比前几周的要大,2月29日达到全月最高规模程度。

  总结:2月基本上最后一周的迁徙流动达到最大规模以及数量最多,其次是第一周,总体规模程度出现V字形分布。

  (3)人口流动规模分析

    

    

     基本上每个城市的同期规模指数比去年小,北上广深以及新一线城市的规模指数同比其他城市要高,但是对比去年所占比例不到50%,从散点图可以看出,大城市的迁徙规模要大得多但是数量少,大部分城市都处于迁徙规模较小的情况。侧面反映了国内现在人口流动呈现区域化、集中化的情况。

    

     

    各省份的平均迁徙规模指数,4个直辖市,广东、江苏、浙江为首的高指数地区,以4个直辖市为例,本地人口占本市的比例不高,外地人口输入为主,所以缺少了外来人口的流入,指数的差值大幅度扩大,反观广东、江苏和浙江,因为本省的经济发展区域相对集中在一起,较为偏远的城市的当地人口的流动性并不高,人口迁徙规模较小,所以差值缩小。

    

     

     去年全国城市的迁入规模指数大于1有167个,今年的城市数量只有47个,大幅度减少。

    

     

     连续29天规模指数大于1可以理解为一个城市在每一天都有规模化人口流入且数量相对较大,去年的城市数量要比今年多出53个,显而易间今年在整个2月期间,人口的迁徙数量急剧减少。今年连续29天规模指数大于1 的城市分别为北京、上海、广州、深圳、东莞、长沙、成都、佛山。连续20天以上的城市只有苏州、昆明、南京。

    

     

      

     按规模指数将省份分为4个流入级别,8个一级省主要还是国内发展较好的大城市。二级省和三级省主要是省份中的二线城市或者一些省会,但是人口流入偏少。四级省主要是省份的偏远、经济发展较为落后的城市群。

    

          

     中国的沿海省份有辽宁、山东、江苏、浙江、上海、福建、广东、海南,但是沿海省份的平均流入规模次数百分比只有上海、广东、江苏和浙江比较高于其他的省份,位于东三省的辽宁、广东北上的福建、海南、山东等省份远远比内陆的一些省份要低,不是所有的沿海省份的人口流入是最高的。

    四、结论

    1.由于2月的全国疫情的高发期,人口流动要比去年大幅度减少,尤其是一线城市的幅度更加显而易见。

    2.人口的流动以全国几个经济发展较好的地区辐射流入,珠三角、长三角、京津地区,外来人口比本地人口多,所以在人口流动幅度更大。

    3.河南、广东、四川、湖南、江苏是人口流动大省,但河南省是输出人口性质的省份,其次是四川省、湖南省。广东省市双向流动,但输入比输出的规模更大和频率更高。位于上海临近的江苏和浙江也是人口流动频繁的省份,大多城市以上海为核心。

    4.沿海省份以及其城市流入人口偏多于内陆城市,重庆和北京除外。

    5.西北地区地域面积大但是人口少,所以向东部流动的规模次数偏低。

    6.日期主要集中在2月第一周以及最后一周,因为很多人需要返回工作地,流动规模次数会增多,规模指数会偏高。

    7.临近省份的流动人口更多,地理位置近交通方便。

    8.气候好的区域是流动人口迁徙的流向,生活环境是人考虑的重要因素之一。

           

   

   

  

    

     

    

猜你喜欢

转载自www.cnblogs.com/alian96/p/12439123.html