一、线性回归
house.csv文件中根据面积预测房价
import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.ml.regression.LinearRegression
import org.apache.spark.sql.SparkSession
import org.apache.spark.{SparkConf, SparkContext}
object Main {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("linear").setMaster("local")
val sc = new SparkContext(conf)
//builder设计模式
val spark = SparkSession.builder().config(conf).getOrCreate() //单例模式
val file = spark.read.format("csv").option("sep", ";").option("header", "true").load("house.csv")
//file.show()
//square作为特征变量来预测price
//val data = file.select("square", "price").show()
import spark.implicits._
//shuffle训练集
val random = new util.Random()
val data = file.select("square", "price").map(
//Dataframe = Dataset[Row]转成Dataset[(Double, Double)]
row => (row.getAs[String](0).toDouble, row.getAs[String](1).toDouble, random.nextDouble())//转换回Dataframe只要.toDF()
).toDF("square", "price", "random").sort("random")
data.show()
//使用VectorAssembler转换格式
val assembler = new VectorAssembler()
.setInputCols(Array("square"))
.setOutputCol("features")
val dataset = assembler.transform(data)
dataset.show()
var Array(train, test) = dataset.randomSplit(Array(0.8, 0.2), 1234L)
println(test.count())
val regression = new LinearRegression()
.setMaxIter(10) //最大迭代轮次
.setRegParam(0.3) //设置正则化参数
.setElasticNetParam(0.8) //弹性网络参数
val model = regression
.setLabelCol("price") //设置因变量
.setFeaturesCol("features") //设置特征向量
.fit(train) //训练
val result = model.transform(test)//训练结果
result.show() //result是Dataframe格式
/*
* fit 做训练
* transform 做预测
*/
}
}
预测结果:
有点辣鸡
二、逻辑斯蒂回归
1.Sigmoid函数
三、正则化原理
1.欠拟合、过拟合
欠拟合:增加训练轮次,增加特征向量,使用非线性模型
过拟合:交叉验证法,正则化方法
2.正则化方法
在损失函数中,对模型复杂程度进行量化,越复杂的模型,对其的惩罚越大。
以一次函数为例,令损失函数为
则经过优化的参数 , λ为惩罚因子, Ω(w)为正则化项,反映模型复杂程度,
例如可以为
四、保序回归
用于拟合非递减(或非递增)的一种回归分析,使拟合之后的误差最小化
Spark中使用PAVA(pool ajacent violators)算法, {1, 3, 2, 4, 6}变为{1, 3, 3, 3, 6}
//保序回归
val isotonic = new IsotonicRegression().setFeaturesCol("square").setLabelCol("price")
val model = isotonic.fit(train)
model.transform(test).show()
五、SparkMLlib官方文档
http://spark.apache.org/docs/latest/ml-classification-regression.html#isotonic-regression