sparkml_实战全流程_LogisticRegression(三) - 代码天地

sparkml_实战全流程_LogisticRegression(三)

其他 2020-01-19 17:08:47 阅读次数: 0

上面使用的使用K-Fold来进行超参调优，K-Fold交叉验证往往非常耗时，使用1-Fold的交叉验证（即将数据集按比例分为训练集合验证集）能大大缩短时间
参考：
https://www.jianshu.com/p/20456b512fa7

# 上面使用的使用K-Fold来进行超参调优，K-Fold交叉验证往往非常耗时，
# 使用1-Fold的交叉验证（即将数据集按比例分为训练集合验证集）能大大缩短时间。
# ChiSqSelector选出  5个特征， 降低模型复杂度

selector = ft.ChiSqSelector(
    numTopFeatures=5, 
    featuresCol=featuresCreator.getOutputCol(), 
    outputCol='selectedFeatures',
    labelCol='INFANT_ALIVE_AT_REPORT'
)
# 创建转换器，评估器，管道

logistic = cl.LogisticRegression(
    labelCol='INFANT_ALIVE_AT_REPORT',
    featuresCol='selectedFeatures'
)

pipeline = Pipeline(stages=[encoder,featuresCreator,selector])
data_transformer = pipeline.fit(births_train)


tvs = tune.TrainValidationSplit(
    estimator=logistic, 
    estimatorParamMaps=grid, 
    evaluator=evaluator
)


# 训练模型
tvsModel = tvs.fit(
    data_transformer \
        .transform(births_train)
)

data_train = data_transformer \
    .transform(births_test)
results = tvsModel.transform(data_train)

print(evaluator.evaluate(results, 
     {evaluator.metricName: 'areaUnderROC'}))
print(evaluator.evaluate(results, 
     {evaluator.metricName: 'areaUnderPR'}))

0.6111344483529891
0.5735913338089571

发布了273 篇原创文章 · 获赞 1 · 访问量 4685

私信关注

猜你喜欢

转载自blog.csdn.net/wj1298250240/article/details/103947847

sparkml_实战全流程_LogisticRegression(三)

sparkml_实战全流程_LogisticRegression(二)

sparkml_实战全流程_LogisticRegression(一)

LogisticRegression

top工具全字段解析+实战（三）

【机器学习实战】逻辑回归----sklearn库中的LogisticRegression类

Python机器学习全流程项目实战(完整)

scala-sparkML学习笔记：Scala并发编程实战：Executor线程池

Python(LogisticRegression)

Python机器学习全流程项目实战精讲（2018版）

最新React16组件化+全流程实战在线账本项目

React16 组件化+全流程实战在线账本项目

React16 组件化+测试+全流程实战在线账本项目

最新Python机器学习全流程精解项目实战(完整)

React16组件化+测试+全流程实战“在线账本”项目

全流程开发 TP6.0实战高并发电商服务系统*完

全流程开发 TP6.0实战高并发电商服务系统

游戏建模实战教程：《黎明杀机》中的鬼武士，Maya和ZBrush制作全流程

Maven3搭配Nexus3项目实战全流程记录

Docker系列第05部分：实战部署应用全流程

一文2000字从0到1用Jmeter全流程性能测试实战

深度学习实战34-基于paddle关键信息抽取模型训练的全流程

Unity手机游戏开发：从搭建到发布上线全流程实战

验证码识别全流程实战，突破史上最难AI验证码！

全栈开发流程——数据表的分析与创建详解实战演示（一）

Jenkins全流程搭建

MongoDB全流程

Django全流程教程

接口测试全流程

jenkins搭建全流程

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)