用spark分析北京积分落户数据,按用户身份证所在省份城市分析

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/huoyongliang/article/details/83069567

加载刚才解析json格式存储而成的csv文件。

按用户身份证所在省份城市分析

#导入积分落户人员名单数据
sqlContext = SQLContext(sc)
df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('jifenluohu.csv')
#print(df)
df.createOrReplaceTempView("jflh")
#df.show()
#按省份分析
#按省份倒序
spark.sql("select province,provincename,count(*) as num from jflh group by province,provincename order by num desc").show(30)
#按城市倒序
spark.sql("select city,cityname,count(*) as num from jflh group by city,cityname order by num desc").show(60)

+--------+------------+---+
|province|provincename|num|
+--------+------------+---+
|      13|         河北省|894|
|      21|         辽宁省|484|
|      37|         山东省|445|
|      23|         黑龙江|444|
|      15|      内蒙古自治区|340|
|      14|         山西省|316|
|      41|         河南省|309|
|      22|         吉林省|309|
|      42|         湖北省|290|
|      12|         天津市|239|
|      51|        null|225|
|      32|         江苏省|210|
|      43|         湖南省|210|
|      61|         陕西省|207|
|      36|         江西省|191|
|      34|         安徽省|184|
|      62|         甘肃省|109|
|      11|         北京市| 97|
|      33|         浙江省| 90|
|      65|   新疆维吾尔族自治区| 80|
|      35|         福建省| 79|
|      64|     宁夏回族自治区| 51|
|      45|          广西| 44|
|      52|         贵州省| 40|
|      44|         广东省| 37|
|      63|         青海省| 34|
|      53|        null| 31|
|      31|         上海市| 18|
|      46|        null| 10|
|      50|        null|  1|
+--------+------------+---+
only showing top 30 rows

+------+-----------+---+
|  city|   cityname|num|
+------+-----------+---+
|110108|     北京市海淀区| 70|
|230103| 黑龙江哈尔滨市南岗区| 64|
|150102|内蒙古呼和浩特市新城区| 60|
|220104|  吉林省长春市朝阳区| 58|
|120104|     天津市南开区| 48|
|420106|  湖北省武汉市武昌区| 38|
|130226|     河北省迁安县| 37|
|132801|       null| 36|
|130105| 河北省石家庄市新华区| 35|
|610103|  陕西省西安市碑林区| 35|
|420111|  湖北省武汉市洪山区| 31|
|620102|  甘肃省兰州市城关区| 30|
|610113|  陕西省西安市雁塔区| 28|
|140102|  山西省太原市南城区| 28|
|150203| 内蒙古包头市昆都伦区| 28|
|131082|     河北省三河市| 28|
|120102|     天津市河东区| 27|
|120106|     天津市红桥区| 27|
|130102| 河北省石家庄市长安区| 26|
|132402|     河北省涿州市| 26|
|150204|  内蒙古包头市青山区| 25|
|120103|     天津市河西区| 25|
|410105|  河南省郑州市金水区| 25|
|210102|  辽宁省沈阳市和平区| 24|
|130702| 河北省张家口市桥东区| 23|
|140104|  山西省太原市河西区| 21|
|140103|  山西省太原市北城区| 21|
|132430|       null| 21|
|130302| 河北省秦皇岛市海港区| 20|
|410103|  河南省郑州市二七区| 20|
|130206|   河北省唐山市新区| 20|
|130203|  河北省唐山市路北区| 20|
|230102| 黑龙江哈尔滨市道里区| 19|
|130104| 河北省石家庄市桥西区| 19|
|210103|  辽宁省沈阳市沈河区| 19|
|120105|     天津市河北区| 19|
|140202|   山西省大同市城区| 19|
|210302|  辽宁省鞍山市铁东区| 18|
|120101|     天津市和平区| 18|
|142401|     山西省榆次市| 18|
|152601|     内蒙古集宁市| 17|
|130403|  河北省邯郸市丛台区| 17|
|130402|  河北省邯郸市邯山区| 17|
|370102|  山东省济南市历下区| 17|
|210105|  辽宁省沈阳市皇姑区| 16|
|130103| 河北省石家庄市桥东区| 16|
|130703| 河北省张家口市桥西区| 15|
|420107|  湖北省武汉市青山区| 15|
|120225|      天津市蓟县| 15|
|340104|  安徽省合肥市西市区| 15|
|410305|  河南省洛阳市涧西区| 15|
|230602| 黑龙江大庆市萨尔图区| 14|
|150302| 内蒙古乌海市海勃湾区| 14|
|210204| 辽宁省大连市沙河口区| 14|
|210703|  辽宁省锦州市凌河区| 14|
|210106|  辽宁省沈阳市铁西区| 14|
|210104|  辽宁省沈阳市大东区| 14|
|220102|  吉林省长春市南关区| 14|
|222401|     吉林省延吉市| 13|
|120109|     天津市大港区| 13|
+------+-----------+---+
only showing top 60 rows

猜你喜欢

转载自blog.csdn.net/huoyongliang/article/details/83069567