Spark ML函数VectorAssembler - 代码天地

Spark ML函数VectorAssembler

其他 2018-07-22 05:15:03 阅读次数: 0

从源数据中提取特征指标数据，这是一个比较典型且通用的步骤，因为我们的原始数据集里，经常会包含一些非指标数据，如 ID，Description 等。为方便后续模型进行特征输入，需要部分列的数据转换为特征向量，并统一命名，VectorAssembler类完成这一任务。VectorAssembler是一个transformer，将多列数据转化为单列的向量列。

import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.ml.linalg.Vectors

val dataset = spark.createDataFrame(
  Seq((0, 18, 1.0, Vectors.dense(0.0, 10.0, 0.5), 1.0))
).toDF("id", "hour", "mobile", "userFeatures", "clicked")

val assembler = new VectorAssembler()
  .setInputCols(Array("hour", "mobile", "userFeatures"))
  .setOutputCol("features")

val output = assembler.transform(dataset)
println(output.select("features", "clicked").first())

转化前的数据：

id | hour | mobile | userFeatures     | clicked
----|------|--------|------------------|---------
 0  | 18   | 1.0    | [0.0, 10.0, 0.5] | 1.0
 ```

转化后的数据：

id	hour	mobile	userFeatures	clicked	features
0	18	1.0	[0.0, 10.0, 0.5]	1.0	[18.0, 1.0, 0.0, 10.0, 0.5]

“`

猜你喜欢

转载自blog.csdn.net/bigdata_mining/article/details/81122963

Spark ML函数VectorAssembler

Spark VectorAssembler 向量装配转换器

spark ml

Spark ML Pipelines（ML管道）

spark ml pipelines

Spark ML 实例1

spark-ML基础

Spark ML逻辑回归

Spark的Ml pipeline理解

Spark ML数学基础

python spark ML

Spark ml之Binarizer

Spark ml之StopWordsRemover

Spark ml之Tokenizer

spark ml包

【Spark MLlib】（三）Spark ML 数据基础

【Spark MLlib】（一）Spark ML Pipelines

Spark ML - 协同过滤

Spark ML - 聚类算法

spark 机器学习（ml pipeline）

Spark ML PipeLine学习笔记

Spark ML机器学习：SQLTransformer

【Spark】Spark ML 机器学习的一个案例

Spark（三十）Spark SQl内置函数

【Spark】spark randomSplit glom函数操作详解

spark.ml机器学习模块

学习spark ml源码——线性回归

Spark-ML 线性回归 LinearRegression

spark ML 中 VectorIndexer, StringIndexer等用法

Spark ML特征的提取、转换和选择

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)