开奖网源码搭建与Spark学习 - 代码天地

开奖网源码搭建与Spark学习

企业开发 2018-08-14 15:08:27 阅读次数: 0

VectorIndexer：
倘若所有特征都已经被组织在一个向量中，开奖网源码搭建[企俄：2152876294] 网址diguaym.com又想对其中某些单个分量进行处理时，Spark ML提供了VectorIndexer类来解决向量数据集中的类别性特征转换。

通过为其提供maxCategories超参数，它可以自动识别哪些特征是类别型的，并且将原始值转换为类别索引。它基于不同特征值的数量来识别哪些特征需要被类别化，那些取值可能性最多不超过maxCategories的特征需要会被认为是类别型的。

复制代码

package Spark_MLlib

import org.apache.spark.ml.feature.VectorIndexer
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.SparkSession

object 特征变换VectorIndexer {
val spark=SparkSession.builder().master("local[2]").appName("IndexToString").getOrCreate()
import spark.implicits.

def main(args: Array[String]): Unit = {
val data=Seq(
Vectors.dense(-1,1,1,8,56),
Vectors.dense(-1,3,-1,-9,88),
Vectors.dense(0,5,1,10,96),
Vectors.dense(0,5,1,11,589),
Vectors.dense(0,5,1,11,688)

)
val df=spark.createDataFrame(data.map(Tuple1.apply)).toDF("features")
val indexer= new VectorIndexer().setInputCol("features").setOutputCol("indexed").setMaxCategories(4)  //那些取值可能性最多不超过maxCategories的特征会被认为是类别型的,进而将原始值转换为类别索引
val indexer_model=indexer.fit(df)
val categoricalFeatures= indexer_model.categoryMaps.keys.toSet
println(s"Chose ${categoricalFeatures.size} categorical features: " + categoricalFeatures.mkString(", "))

val indexed=indexer_model.transform(df)
indexed.show(false)

}
}
复制代码

结果：

Chose 4 categorical features: 0, 1, 2, 3

扫描二维码关注公众号，回复： 2760590 查看本文章

+-------------------------+-----------------------+
|features |indexed |
+-------------------------+-----------------------+
|[-1.0,1.0,1.0,8.0,56.0] |[1.0,0.0,1.0,1.0,56.0] |
|[-1.0,3.0,-1.0,-9.0,88.0]|[1.0,1.0,0.0,0.0,88.0] |
|[0.0,5.0,1.0,10.0,96.0] |[0.0,2.0,1.0,2.0,96.0] |
|[0.0,5.0,1.0,11.0,589.0] |[0.0,2.0,1.0,3.0,589.0]|
|[0.0,5.0,1.0,11.0,688.0] |[0.0,2.0,1.0,3.0,688.0]|
+-------------------------+-----------------------+

猜你喜欢

转载自blog.51cto.com/13922816/2159756

开奖网源码搭建与Spark学习

开奖网源码-搭建与基于Python Spark的推荐系统

开奖网源码搭建与java 多态

开奖网源码搭建与spring boot实现

开奖网源码-搭建Django模型层

168开奖网源码搭建教程分享

Hibernate配置文件属性和开奖网源码搭建

开奖网源码搭建与我用Python

开奖网源码搭建与oracle查询锁表情况

开奖网源码-搭建Linux 程序编译过程的来龙去脉

开奖网源码-搭建Linux 文件相关操作

168开奖网源码搭建详解 Git 和 GitHub

快三鱼虾蟹开奖网源码开发搭建,附带开奖号码修改

MySQL实用第三方开奖网源码搭建工具收集

Hibernate配置文件属性和开奖网源码搭建 acgred.cn

Spark 现金盘彩票开奖网源码下载源码分析之ShuffleMapTask内存数据Spill和合并

NET Core的mvc服务彩票开奖网平台搭建和Route服务学习总结

香港赛马开奖网带视频，后台可控源码下载

开奖网源码出租与标准库函数

开奖网源码下载Hadoop分布式文件系统

开奖网源码-出售与React Native 项目整合

开奖网源码下载与Mariadb安装之后的各种设置

开奖网源码-下载Linux 系统设置 : eval 命令详解

谈谈 jfinal168开奖网源码的优缺点

赛车开奖网-【首发】

Spark源码学习之IDEA源码阅读环境搭建

【Spark内核源码】Spark源码环境搭建

基础学unity游戏快三开奖网平台搭建开发最佳路线

CentOS 7 Shell脚本编程开奖网平台架设搭建

澳洲幸运5开奖网

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)