This year, I participated in the Anhui Big Data and Artificial Intelligence Competition. It was the first time I participated and won the second prize at the provincial level. As a result, there is no time to do the last comprehensive question (spark data processing), and the real questions of the 20-year online competition are attached for the reference of students who participate in the competition in the future.
2020 Anhui Province Big Data and Artificial Intelligence Application Preliminary Competition Topics
Part 1: Big Data Platform Deployment (10 points)
数据中台的概念是最早由阿里巴巴首次提出,是为了应对像双十一这样的业务高峰、应对大规模数据的线性可扩展问题、应对复杂业务系统的解耦问题,而在技术、组织架构等方面采取的一些变革,其本质上还是一个大数据平台,开源框架中由Hadoop和Hive为主要核心框架组成,下面请你完成hadoop和hive的安装:
任务一、Hadoop安装(按下面要求提供核心步骤)(5分)
1、配置SSH免密登录(截图成功ssh登录到子节点截图)(0.5分)
2、解压Hadoop安装包并修改配置文件(截图Slaves文件中内容)(0.5分)
3、配置hadoop环境变量(截图profile文件配置的关键位置)(1分)
4、拷贝hadoop到其他的机器上(截图拷贝命令)(0.5分)
5、初始化hadoop集群(截图执行命令)(1分)
6、启动Hadoop集群(启动成功后执行jps命令,截图主节点和子节点的进程)(0.5分)
7、在浏览器中访问 主节点:50070端口的webUI页面。并截图(建议Chrome浏览器)(1分)
任务二、Hive安装(按下面要求提供核心步骤)(5分)
1、基于Linux系统Mysql安装、在Mysql中创建一个以你队伍组名英文全拼命名的数据库(截图结果界面2分)
2、Hive搭建,修改hive-site.xml文件中默认元数据库驱动为mysql的驱动(截图2分)
3、启动hive,启动成功后,执行show databases;(截图结果1分)
Part II: Big data preprocessing part (20 points)
2020年新冠肺炎对我国社会各方面影响巨大,大数据技术在抗击疫情过程中发挥了巨大作用,尤其在新增、确认等相关病例数据的采集及统计上应用颇广,下面有一份数据是今年1月20-4月29日的全国各省市及国外的疫情数据,请你按照要求使用MapReduce程序完成相关数据预处理。
1、数据转换:请将数据中日期字段格式,替换成日期格式为xxxx年xx月xx日(5分)。
请粘贴代码和运行结果截图(在hadoop环境中查看hdfs结果数据截图)
2、数据清洗:以下规则同时进行(请粘贴代码和运行结果截图)
规则1 从上述小题中,截取前5个字段。(5分)
规则2 过滤出省份为湖北省的数据。(5分)
规则3 对5个字段去重,生成新的数据,将结果数据输出到hdfs。(5分)
Part 3: Big Data Analysis (20 points)
During the epidemic, various government media and social networking sites have released relevant daily statistics on the epidemic. The following is a statistical analysis of the relevant epidemic data based on the data warehouse tool Hive.
数据字段为:日期、省份、城市、新增确诊、新增出院、新 增死亡、消息来源、来源1,来源2,来源3
1、请在hdfs根目录下中创建一个目录,以你的小组名称英文全拼命名_data,并将以上疫情数据上传到这个目录中,截图成功后结果(2分)。
2、请你在hive中创建数据库名为: ods_yiqing_data,并切换使用这个数据库,截图成功后结果(2分)。
3、创建一个hive外部表,字段为以上疫情数据全部字段(自行命名字段),数据存储位置为第1小题创建的hdfs目录,请粘贴建表语句及运行成功截图(3分)。
4、统计湖北省各市2月新增确诊病例总数,按照总数降序排列,请提供SQL语句及运行结果截图(4分)
5统计文件中安徽省合肥市每月新增确诊病例总数,按照降序排列,请提供SQL语句及运行结果截图(4分)
6统计文件中湖北每月新增出院病例总数最多的前2个城市,请提供SQL语句及运行结果截图(5分)
Part 4: Visualization (15 points)
大数据时代已经到来,各企业迫切希望从已经积累的数据中分析出有价值的东西,而用户行为和评价体系的分析尤为重要。利用大数据来分析商品评分与消费习惯,可以预测商品的发展的趋势,提高产品质量,同时提高用户满意度。用户在选择商品的时候也可以根据商品评分去衡量。
数据:
某电商网站商品的评价:共有400行、2列。这代表本训练集共有400条数据,每条数据有2类信息。包括:
• Id => 用户ID
• 评价等级 (1-5个等级,类似于1星-5星评价)
要求用以上数据集合做可视化数据分析:
1利用柱状图显示各种评价的数量并保存结果(5分)
2通过饼图来展示各等级评价的占比(10分)
Part 5 Artificial Intelligence (20 points)
作为新一轮产业变革的核心驱动力和引领未来发展的战略技术,国家高度重视人工智能产业的发展。2017年国务院发布《新一代人工智能发展规划》,对人工智能产业进行战略部署;在2018年3月和2019年3月的政府工作报告中,均强调指出要加快新兴产业发展,推动人工智能等研发应用,培育新一代信息技术等新兴产业集群壮大数字经济。下面请你完成人工智能技术框架TensorFLow 的安装及算法实现。
一、TensorFlow安装(6分)
1 请在linux环境下安装Python环境(3分)
2 请在linux下安装tensorflow(3分)
二、TensorFlow编程实现(14分)
1 请你构建一个简单的图计算(4分)
两个常量点(3.6)、(4.6),请你创建对两个 Tensor 执行 + 操作
请提供代码及截图()
2 Iris数据集是常用的分类实验数据集,也称鸢尾花卉数据集,是一类多重变量分析的数据集。请你从python相关库中导入获取并使用tensorflow实现一个简单的二值分类器来预测一朵花是否为山鸢尾(提供相关代码和输出结果)(5分)
3 请绘制分类器拟合曲线图(代码和结果图)(5分)
Part VI: Comprehensive Questions (15 points)
一、请完成下面相关统计
请你将以下学生成绩数据,存放在Hdfs上,使用Spark读取完成下面分析
学生表字段描述:学号,姓名,年龄,性别,班级
分数表字段描述:学号,科目名,分数
科目表字段描述:科目名,总分
1、使用Spark统计每个班级学生的人数,将统计好的结果保存到文件中(请提供编程代码和截图)(3分)
输出样式:
班级,人数
文科一班,39
2、使用Spark sql统计每个班级总分排名前十的学生,将统计好的结果保存到文件中 (请提供编程代码和截图)(3分)
输出样式:
班级,姓名,总分
文科一班,张三,400
3、请使用你擅长的一种编程语言和框架统计每科都及格的学生 (请提供编程代码和结果截图)(4分)
输出样式
学号,姓名,班级,科目名,分数
1500100001,施笑槐,文科六班,语文,80
data collection
Link: https://pan.baidu.com/s/1inMdpqKhLP7lye5Z6u55vw Extraction code: y1bx