Win10系统下spark的环境搭建

环境准备

·jdk配置;
·scala安装与配置;
·spark安装与配置;
·hadoop安装与配置;

版本说明

·jdk:1.8
·scala:2.11.8
·spark:2.4.0
·hadoop:2.8.3

jdk配置

  1. 首先,进入我的电脑-〉系统属性-〉高级系统设置->环境变量
    配置JAVA_Home
    在这里插入图片描述
    配置Path
    Path路径
  2. 验证配置
    在这里插入图片描述

scala安装与配置

  1. scala下载
    官方地址:https://www.scala-lang.org/download/2.11.8.html
    在这里插入图片描述
  2. 配置用户变量下的Path
    变量值一栏输入:E:\scala 也就是scala的安装目录
    注意:安装路径不能有空格和中文,否则报错,出现报错需要卸载重装
    在这里插入图片描述
  3. 配置系统变量下的Path变量
    在"变量值"一栏的最前面添加如下的路径: %SCALA_HOME%\bin;%SCALA_HOME%\jre\bin;
    注意:后面的分号 ; 不要漏掉。
    在这里插入图片描述
  4. 设置系统变量下的Classpath 变量:
    · “变量名”:ClassPath
    · “变量值”:
    · .;%SCALA_HOME%\bin;%SCALA_HOME%\lib\dt.jar;%SCALA_HOME%\lib\tools.jar.;
    在这里插入图片描述
  5. 验证配置
    在这里插入图片描述

spark安装与配置

  1. spark下载:http://spark.apache.org/downloads.html
    在这里插入图片描述
    选择3,进入下载页面 ,选择默认下载
    在这里插入图片描述
  2. 下载完毕后解压到D:
    在这里插入图片描述
  3. 配置Path
    在这里插入图片描述
    如上,可以看到对应的spark、scala、java版本,同时存在异常信息,异常信息是由于hadoop导致的,下面来配置hadoop即可解决该异常。

Hadoop安装与配置

  1. Hadoop官网下载:http://hadoop.apache.org/releases.html
    在这里插入图片描述
  2. 解压Hadoop
    在这里插入图片描述
  3. 配置Path
    在这里插入图片描述
  4. 验证配置
    在这里插入图片描述

基于spark用线性回归进行数据预测

分类和聚类算法很多,但是对数据进行精准预测的算法不是很多,这里参照了别人的线性回归的例子,使用spark ml进行线性回归。
数据格式

标签,特征值1 特征值2 特征值3...
 1. 1,1.9
 2. 2,3.1
 3. 3,4
 4. 3.5,4.45
 5. 4,5.02
 6. 9,9.97
 7. -2,-0.98

实现代码如下

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint

val data_path = "files/C:/Users/84913/Desktop/sfy/linear_regression_data1.txt"
val data = sc.textFile(data_path)
val training = data.map { line =>
  val arr = line.split(',')
  LabeledPoint(arr(0).toDouble, Vectors.dense(arr(1).split(' ').map(_.toDouble)))
}.cache()
training.foreach(println)

结果

(1.0,[1.9])
(2.0,[3.1])
(3.0,[4.0])
(3.5,[4.45])
(4.0,[5.02])
(9.0,[9.97])
(-2.0,[-0.98])

猜你喜欢

转载自blog.csdn.net/sfy101588/article/details/85802942