Spark项目实战,详细操作图文详解(基于Spark MLlib的鸢尾花聚类项目实战、基于Spark GraphX的航班飞行网图分析)

目录

一、基于MLlib的鸢尾花聚类项目实战

1.1 项目背景

1.1.1 背景

1.1.2 数据

1.2 项目实战步骤(图文详解)

二、基于GraphX的航班飞行网图分析

2.1 项目背景

2.1.1 背景

2.1.2 数据

2.2 项目实战步骤(图文详解)


一、基于MLlib的鸢尾花聚类项目实战

1.1 项目背景

1.1.1 背景

数据iris.txt以鸢尾花的特征作为数据来源,(数据集包含150个数据集,分为3类,每类50个数据,本节聚类实验,只保留了4个属性的值,类别值被丢弃)目的是通过使用MLlib程序库中的聚类算法(K-Means )来对数据(鸢尾花)进行分类

1.1.2 数据

数据集如下:(直接复制粘贴存为iris.txt即可)

5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
4.6,3.4,1.4,0.3,Iris-setosa
5.0,3.4,1.5,0.2,Iris-setosa
4.4,2.9,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa
5.4,3.7,1.5,0.2,Iris-setosa
4.8,3.4,1.6,0.2,Iris-setosa
4.8,3.0,1.4,0.1,Iris-setosa
4.3,3.0,1.1,0.1,Iris-setosa
5.8,4.0,1.2,0.2,Iris-setosa
5.7,4.4,1.5,0.4,Iris-setosa
5.4,3.9,1.3,0.4,Iris-setosa
5.1,3.5,1.4,0.3,Iris-setosa
5.7,3.8,1.7,0.3,Iris-setosa
5.1,3.8,1.5,0.3,Iris-setosa
5.4,3.4,1.7,0.2,Iris-setosa
5.1,3.7,1.5,0.4,Iris-setosa
4.6,3.6,1.0,0.2,Iris-setosa
5.1,3.3,1.7,0.5,Iris-setosa
4.8,3.4,1.9,0.2,Iris-setosa
5.0,3.0,1.6,0.2,Iris-setosa
5.0,3.4,1.6,0.4,Iris-setosa
5.2,3.5,1.5,0.2,Iris-setosa
5.2,3.4,1.4,0.2,Iris-setosa
4.7,3.2,1.6,0.2,Iris-setosa
4.8,3.1,1.6,0.2,Iris-setosa
5.4,3.4,1.5,0.4,Iris-setosa
5.2,4.1,1.5,0.1,Iris-setosa
5.5,4.2,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa
5.0,3.2,1.2,0.2,Iris-setosa
5.5,3.5,1.3,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa

1.2 项目实战步骤(图文详解)

 1)命令行开启spark shell

2)导入必要的包

3)读入文件,装载数据:通过SparkContext自带的textFile(..)方法将文件读入,并进行转换,形成一个RDD。

 对RDD使用filter算子,并通过正则表达式将鸢尾花的类标签过滤掉,然后查看数据的情况 。

4)将数据集聚类,2个类,5次迭代,进行模型训练形成数据模型

 5)打印数据模型的中心点

6)通过predict()方法来确定每个样本所属的聚类

7)使用误差平方之和来评估数据模型(度量聚类的有效性) 

 8)使用模型测试单点数据

9) 退出

二、基于GraphX的航班飞行网图分析

2.1 项目背景

2.1.1 背景

通过使用GraphX来构建航班飞行网图,统计航班飞行网图中机场与航线的数量,计算最长的飞行航线,找出最繁忙的机场

2.1.2 数据

数据集如下:

提取链接:https://pan.baidu.com/s/1bW-mwDwN6sDm4s6KGCytKA 
提取码:21g4 

2.2 项目实战步骤(图文详解)

1) 导入包

 

2)装载CSV为RDD,每个机场作为顶点,飞行距离是边 初始化顶点集airport:RDD[(VertexId,String)],顶点属性为机场名称 初始化边集lines:RDD[Edge],边属性为飞行距离

 3) 进行图分析:统计航班飞行网图中机场与航线的数量

4)计算最长的飞行航线

5)找出最繁忙的机场,哪个机场到达航班最多

猜你喜欢

转载自blog.csdn.net/weixin_45440484/article/details/130557622
今日推荐