用spark分析北京积分落户数据,按用户所在单位分析

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/huoyongliang/article/details/83062932

加载刚才解析json格式存储而成的csv文件。

按用户所在单位分析

#导入积分落户人员名单数据
sqlContext = SQLContext(sc)
df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('jifenluohu.csv')
#print(df)
df.createOrReplaceTempView("jflh")
#df.show()
#计算总数
spark.sql("select count(1) as num from jflh").show()
#按公司分组
spark.sql("select unit,count(1) as num from jflh group by unit order by num desc").show(50)
+----+
|num|
+----+
|6019|
+----+

+--------------------+---+
|unit|num|
+--------------------+---+
|北京华为数字技术有限公司|137|
|中央电视台|73|
|北京首钢建设集团有限公司|57|
|百度在线网络技术(北京)有限公司|55|
|联想(北京)有限公司|48|
|北京外企人力资源服务有限公司|40|
|中国民生银行股份有限公司|40|
|国际商业机器(中国)投资有限公司|39|
|中国国际技术智力合作有限公司|29|
|华为技术有限公司北京研究所|27|
|爱立信(中国)通信有限公司|26|
|腾讯科技(北京)有限公司|24|
|北京阿里巴巴云计算技术有限公司|23|
|用友软件股份有限公司|20|
|中国石油天然气股份有限公司管道北京...|20|
|中铁建工集团有限公司|19|
|中煤建设集团工程有限公司|17|
|微软(中国)有限公司|17|
|中信银行股份有限公司|17|
|甲骨文(中国)软件系统有限公司|16|
|西门子(中国)有限公司|16|
|北京市京才实业开发总公司|16|
|中国光大银行股份有限公司|16|
|中铁电气化局集团有限公司|15|
|中铁三局集团第四工程有限公司|15|
|中建二局安装工程有限公司|14|
|中煤建设集团有限公司|14|
|阿里巴巴(北京)软件服务有限公司|14|
|国际商业机器(中国)有限公司北京分公司|14|
|施耐德电气(中国)有限公司|14|
|北京四方继保自动化股份有限公司|14|
|百度时代网络技术(北京)有限公司|13|
|石化盈科信息技术有限责任公司|13|
|英特尔(中国)有限公司北京分公司|13|
|亚信科技(中国)有限公司|13|
|威睿信息技术(中国)有限公司|13|
|新华三技术有限公司北京研究所|12|
|中国国际金融股份有限公司|12|
|中国建筑第二工程局有限公司|12|
|一汽丰田汽车销售有限公司|12|
|阿里巴巴科技(北京)有限公司|12|
|北京京东尚科信息技术有限公司|11|
|诺基亚通信系统技术(北京)有限公司|11|
|华夏幸福基业股份有限公司北京管理咨...|11|
|中国石油天然气股份有限公司北京销售分公司|10|
|冠捷显示科技(中国)有限公司|10|
|北京铁路局|10|
|北京用友政务软件有限公司|10|
|瑞斯康达科技发展股份有限公司|10|
|华夏银行股份有限公司|9|
+--------------------+---+
onlyshowingtop50rows

猜你喜欢

转载自blog.csdn.net/huoyongliang/article/details/83062932