Spark ML流式在线学习模型初步构建分析-Spark商业ML实战 - 代码天地

Spark ML流式在线学习模型初步构建分析-Spark商业ML实战

其他 2018-11-20 21:23:42 阅读次数: 0

版权声明：本套技术专栏是作者（秦凯新）平时工作的总结和升华，通过从真实商业环境抽取案例进行总结和分享，并给出商业应用的调优建议和集群环境容量规划等内容，请持续关注本套博客。版权声明：禁止转载，欢迎学习。QQ邮箱地址：[email protected]，如有任何商业交流，可随时联系。 https://blog.csdn.net/shenshouniu/article/details/84207796

本套技术专栏是作者（秦凯新）平时工作的总结和升华，通过从真实商业环境抽取案例进行总结和分享，并给出商业应用的调优建议和集群环境容量规划等内容，请持续关注本套博客。版权声明：禁止转载，欢迎学习。QQ邮箱地址：[email protected]，如有任何商业交流，可随时联系。

1 Spark ML流式在线学习初步讲解

目前SparkStreaming 支持Streaming Linear Regression 和Streaming KMeans等。本文作为初步学习实例，以Streaming Linear Regression来说明问题，以方便后续更为复杂的学习案例。

2 初步案例实战

import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.{LabeledPoint, StreamingLinearRegressionWithSGD}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import breeze.linalg.DenseVector

val traindir = sc.textFile("/data/train2.csv")
traindir.collect.take(2)

val ssc = new StreamingContext(sc,Seconds(10))
val stream=ssc.textFileStream("/data/train2.csv")
val NumFeatures = 11
val zeroVector = DenseVector.zeros[Double](NumFeatures)
val model = new StreamingLinearRegressionWithSGD().setInitialWeights(Vectors.dense(zeroVector.data)).setNumIterations(20).setRegParam(0.8).setStepSize(0.01)
  
  
val labeledStream = stream.map{ event =>
val split = event.split(",")
val y = split(11).toDouble
val features = split(1).slice(0,11).map(_.toDouble)
LabeledPoint(label = y, features = Vectors.dense(features))
}

model.trainOn(labeledStream)
model.predictOn(labeledStream.map(lp=>(lp.label,lp.features))).print
ssc.start()
ssc.awaitTermination()
  }
}

3 总结

在线学习仍然采用老的mlib包，可谓前景堪忧啊。

秦凯新 20181119

猜你喜欢

转载自blog.csdn.net/shenshouniu/article/details/84207796

Spark ML流式在线学习模型初步构建分析-Spark商业ML实战

Spark ML Pipeline模型选择及超参数评估调优深入剖析 -Spark商业ML实战

Spark ML自定义选择最优模型算法深入剖析-Spark商业ML实战

spark ml

Spark ML 基于Iris数据集进行数据建模及回归聚类综合分析-Spark商业ML实战

Spark ML 特征转换及处理算子实战技巧-Spark商业ML实战

Spark ML 基于文本的特征提取实战技巧-Spark商业ML实战

spark ml pipeline构建机器学习任务

Spark ML统计指标以及最优参数评估指标深入剖析-Spark商业ML实战

Spark ML 数值类型与数据汇总基础统计算法详解-Spark商业ML实战

spark 机器学习（ml pipeline）

Spark ML PipeLine学习笔记

Spark ML机器学习：SQLTransformer

spark

spark：

【spark】

Spark ML Pipelines（ML管道）

spark ml pipelines

Spark ML 实例1

spark-ML基础

Spark ML函数VectorAssembler

Spark ML逻辑回归

Spark的Ml pipeline理解

Spark ML数学基础

python spark ML

Spark ml之Binarizer

Spark ml之StopWordsRemover

Spark ml之Tokenizer

spark ml包

Spark 实战，第 5 部分: 使用 ML Pipeline 构建机器学习工作流

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)