2020 Anhui Province Big Data and Artificial Intelligence Network Competition Topics

This year, I participated in the Anhui Big Data and Artificial Intelligence Competition. It was the first time I participated and won the second prize at the provincial level. As a result, there is no time to do the last comprehensive question (spark data processing), and the real questions of the 20-year online competition are attached for the reference of students who participate in the competition in the future.

Part 1: Big Data Platform Deployment (10 points)

数据中台的概念是最早由阿里巴巴首次提出,是为了应对像双十一这样的业务高峰、应对大规模数据的线性可扩展问题、应对复杂业务系统的解耦问题,而在技术、组织架构等方面采取的一些变革,其本质上还是一个大数据平台,开源框架中由Hadoop和Hive为主要核心框架组成,下面请你完成hadoop和hive的安装:
任务一、Hadoop安装(按下面要求提供核心步骤)(5分)
1、配置SSH免密登录(截图成功ssh登录到子节点截图)(0.5分)
2、解压Hadoop安装包并修改配置文件(截图Slaves文件中内容)(0.5分)
3、配置hadoop环境变量(截图profile文件配置的关键位置)(1分)
4、拷贝hadoop到其他的机器上(截图拷贝命令)(0.5分)
5、初始化hadoop集群(截图执行命令)(1分)
6、启动Hadoop集群(启动成功后执行jps命令,截图主节点和子节点的进程)(0.5分)
7、在浏览器中访问 主节点:50070端口的webUI页面。并截图(建议Chrome浏览器)(1分)

任务二、Hive安装(按下面要求提供核心步骤)(5分)
1、基于Linux系统Mysql安装、在Mysql中创建一个以你队伍组名英文全拼命名的数据库(截图结果界面2分)
2、Hive搭建,修改hive-site.xml文件中默认元数据库驱动为mysql的驱动(截图2分)
3、启动hive,启动成功后,执行show databases;(截图结果1分)

Part II: Big data preprocessing part (20 points)

2020年新冠肺炎对我国社会各方面影响巨大,大数据技术在抗击疫情过程中发挥了巨大作用,尤其在新增、确认等相关病例数据的采集及统计上应用颇广,下面有一份数据是今年1月20-4月29日的全国各省市及国外的疫情数据,请你按照要求使用MapReduce程序完成相关数据预处理。
1、数据转换:请将数据中日期字段格式,替换成日期格式为xxxx年xx月xx日(5分)。
请粘贴代码和运行结果截图(在hadoop环境中查看hdfs结果数据截图)

2、数据清洗:以下规则同时进行(请粘贴代码和运行结果截图)
规则1 从上述小题中,截取前5个字段。(5分)
规则2 过滤出省份为湖北省的数据。(5分)
规则3 对5个字段去重,生成新的数据,将结果数据输出到hdfs。(5分)

Part 3: Big Data Analysis (20 points)

During the epidemic, various government media and social networking sites have released relevant daily statistics on the epidemic. The following is a statistical analysis of the relevant epidemic data based on the data warehouse tool Hive.

数据字段为:日期、省份、城市、新增确诊、新增出院、新	增死亡、消息来源、来源1,来源2,来源3
1、请在hdfs根目录下中创建一个目录,以你的小组名称英文全拼命名_data,并将以上疫情数据上传到这个目录中,截图成功后结果(2分)。
2、请你在hive中创建数据库名为: ods_yiqing_data,并切换使用这个数据库,截图成功后结果(2分)。

3、创建一个hive外部表,字段为以上疫情数据全部字段(自行命名字段),数据存储位置为第1小题创建的hdfs目录,请粘贴建表语句及运行成功截图(3分)。

4、统计湖北省各市2月新增确诊病例总数,按照总数降序排列,请提供SQL语句及运行结果截图(4分)

5统计文件中安徽省合肥市每月新增确诊病例总数,按照降序排列,请提供SQL语句及运行结果截图(4分)

6统计文件中湖北每月新增出院病例总数最多的前2个城市,请提供SQL语句及运行结果截图(5分)

Part 4: Visualization (15 points)

 大数据时代已经到来,各企业迫切希望从已经积累的数据中分析出有价值的东西,而用户行为和评价体系的分析尤为重要。利用大数据来分析商品评分与消费习惯,可以预测商品的发展的趋势,提高产品质量,同时提高用户满意度。用户在选择商品的时候也可以根据商品评分去衡量。
数据:  
某电商网站商品的评价:共有400行、2列。这代表本训练集共有400条数据,每条数据有2类信息。包括:
• Id => 用户ID
• 评价等级 (1-5个等级,类似于1星-5星评价)
要求用以上数据集合做可视化数据分析:
1利用柱状图显示各种评价的数量并保存结果(5分)


2通过饼图来展示各等级评价的占比(10分)

Part 5 Artificial Intelligence (20 points)

作为新一轮产业变革的核心驱动力和引领未来发展的战略技术,国家高度重视人工智能产业的发展。2017年国务院发布《新一代人工智能发展规划》,对人工智能产业进行战略部署;在2018年3月和2019年3月的政府工作报告中,均强调指出要加快新兴产业发展,推动人工智能等研发应用,培育新一代信息技术等新兴产业集群壮大数字经济。下面请你完成人工智能技术框架TensorFLow 的安装及算法实现。
一、TensorFlow安装(6分)
1 请在linux环境下安装Python环境(3分)
2 请在linux下安装tensorflow(3分)
二、TensorFlow编程实现(14分)
1 请你构建一个简单的图计算(4分)
  两个常量点(3.6)、(4.6),请你创建对两个 Tensor 执行 + 操作
请提供代码及截图()
2 Iris数据集是常用的分类实验数据集,也称鸢尾花卉数据集,是一类多重变量分析的数据集。请你从python相关库中导入获取并使用tensorflow实现一个简单的二值分类器来预测一朵花是否为山鸢尾(提供相关代码和输出结果)(5分)

3 请绘制分类器拟合曲线图(代码和结果图)(5分)

Part VI: Comprehensive Questions (15 points)

一、请完成下面相关统计
请你将以下学生成绩数据,存放在Hdfs上,使用Spark读取完成下面分析

学生表字段描述:学号,姓名,年龄,性别,班级
分数表字段描述:学号,科目名,分数
科目表字段描述:科目名,总分

1、使用Spark统计每个班级学生的人数,将统计好的结果保存到文件中(请提供编程代码和截图)(3分)
输出样式:
班级,人数
文科一班,39


2、使用Spark sql统计每个班级总分排名前十的学生,将统计好的结果保存到文件中 (请提供编程代码和截图)(3分)
输出样式:
班级,姓名,总分
文科一班,张三,400




3、请使用你擅长的一种编程语言和框架统计每科都及格的学生 (请提供编程代码和结果截图)(4分)
输出样式
学号,姓名,班级,科目名,分数
1500100001,施笑槐,文科六班,语文,80 

data collection

Link: https://pan.baidu.com/s/1inMdpqKhLP7lye5Z6u55vw Extraction code: y1bx

Guess you like

Origin blog.csdn.net/VariatioZbw/article/details/111686092