利用sklearn的Pipeline简化建模过程 - 代码天地

利用sklearn的Pipeline简化建模过程

其他 2019-11-27 10:50:54 阅读次数: 0

很多框架都会提供一种Pipeline的机制，通过封装一系列操作的流程，调用时按计划执行即可。比如netty中有ChannelPipeline，TensorFlow的计算图也是如此。

下面简要介绍sklearn中pipeline的使用：

from sklearn.pipeline import Pipeline

from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

# 定义类别型特征预处理器
categorical_transformer=Pipeline(steps=[
    ('imputer',SimpleImputer(strategy='most_frequent')),
    ('onehot',OneHotEncoder(handle_unknown='ignore'))
])

# 定义数值型特征预处理器
numerical_transformer=SimpleImputer(strategy='constant')

# 将类别与数值型特征预处理器，分别应用于对应列上
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numerical_transformer, ['Age']),
        ('cat', categorical_transformer, ['Embarked'])
    ])

# 定义Pipeline，传入预处理器与选择的模型
my_pipeline=Pipeline(steps=[
    ('preprocessor',preprocessor),
    ('model',RandomForestClassifier(n_estimators=100,random_state=0))
])

# 使用pipeline
X_train,X_valid,y_train,y_valid=train_test_split(X,y,test_size=0.2,random_state=0)
my_pipeline.fit(X_train.copy(),y_train.copy())# 训练，预处理会改变原始数据，不想改变copy一下
preds=my_pipeline.predict(X_valid)# 预测

猜你喜欢

转载自www.cnblogs.com/lunge-blog/p/11940377.html

利用sklearn的Pipeline简化建模过程

利用sklearn中pipeline构建机器学习工作流

sklearn.pipeline包

sklearn 中的 Pipeline 机制

sklearn Pipeline使用

sklearn中的Pipeline

sklearn中pipeline机制

sklearn中的 Pipeline 类

sklearn.pipeline.Pileline

sklearn.pipeline中的 Pipeline（管道机制）

sklearn中的pipeline的用法总结

sklearn 机器学习 Pipeline 模板

Python 3 利用 Dlib 和 sklearn 人脸笑脸检测机器学习建模

Python中使用sklearn 的 Pipeline 管道机制

sklearn中gridsearchcv 与pipeline结合使用

学习笔记：Sklearn中Pipeline的使用

sklearn中Pipeline的使用方法

sklearn中pipeline的用法和FeatureUnion

机器学习- Sklearn (交叉验证和Pipeline)

数据建模 & 过程建模

利用PCA简化数据

sklearn之pipeline：sklearn.pipeline函数使用及其参数解释之详细攻略

利用python-pandas和sklearn进行天池移动推荐离线赛的全过程

利用注解简化tableViewer开发

利用PCA来简化数据

ansible利用角色简化playbook

API - Sklearn三大模型 - Transformer、Estimator、Pipeline

sklearn中pipeline的实现,及GridSearchCV寻找最优参数

Q-learning简化过程

sklearn中的pipeline.Pipeline以及preprocessing.Polynomialfeatures的解释与应用

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)