Scikit-learn(sklearn)机器学习必备库 - 代码天地

Scikit-learn(sklearn)机器学习必备库

企业开发 2023-07-12 02:31:58 阅读次数: 0

Scikit-learn(sklearn)机器学习必备库

sklearn官网
在这里插入图片描述

除了sklearn。需要学的基本库还有numpy,scipy,pandas,matplotlib.都是非常重要的包。

sklearn建模流程：（掌握常见机器学习模型）

数据预处理
特征工程，特征编码
模型选择
模型训练与测试
模型评价，误差分析

数据预处理常用手段：

Standardization,or mea removal and variance scaling (标准化或均值去除和方差缩放)
Non-linear transformation（非线性变换）
Normalization（归一化）
Encoding categorical features（编码分类特征）
Discretization（离散化）
Imputation of missing values（缺失值插补）
Generaing polynomial features（生成多项式特征）
Custom transformers（自定义处理方式）
每一种手段都有多种方式方法！

特征工程，特征编码
常用方式有：
preprocessing.LableEncoder
preprocessing.OneHotEncoder
preprocessing.OrdinalEncoder

模型训练与测试
sklearn提供了所有模型的训练、预测、打分方法：

fit :模型训练
predict :模型预测
predict_prob: 模型预测结果对应的概率值
score :模型打分

常见的机器学习模型有：

线性模型（线性回归、岭回归、逻辑回归等）
树模型（决策树）
神经网络（DNN）
无监督模型 (Kmeans聚类)
注：sklearn中不包含XGBoost、LightGBM、CatBoost的实现，sklearn中的神经网络不支持GPU运算。

模型评价与误差分析
回归任务：

MAPE
MSE
MAE
$R^2$

分类任务：

Precision-Recall
ROC-AUC
Accuracy
Log-Loss

无监督任务：

Rand Index
Mutual Information

其他任务：

CV Error
BLEU Score(NLP)
Heuristic methpds to find K

数据划分方法（模型评价）：

留出法（Hold-out）
K折交叉验证（K-fold CV）
自助采样（Bootstrap）

深入了解请查看sklearn官网或博主其他文章。

猜你喜欢

转载自blog.csdn.net/weixin_50918736/article/details/125767816

Scikit-learn(sklearn)机器学习必备库

机器学习--KNN（scikit-learn,sklearn）

Python机器学习库scikit-learn

机器学习--scikit-learn库（2）

机器学习--scikit-learn库（1）

scikit-learn机器学习库

机器学习之scikit-learn库

python机器学习Scikit-learn库

Python机器学习库-Scikit-Learn

Google机器学习（一）安装Anaconda以及Scikit-learn等必备库

机器学习scikit-learn

机器学习及scikit-learn

机器学习-scikit-learn

初步学习Scikit-learn（sklearn）

【机器学习】使用Scikit-Learn库实现随机森林

Python机器学习库scikit-learn实践

python机器学习库scikit-learn: Lasso Regression

机器学习之scikit-learn库的使用

2019.6.26 python实现机器学习----scikit-learn库

Python机器学习库scikit-learn在Anaconda中的配置

机器学习(十一)：Scikit-learn库的基础与使用

掌握 Scikit-Learn: Python 中的机器学习库入门

机器学习----scikit-learn入门

机器学习_scikit-learn中的SVM

Scikit-Learn 机器学习笔记 -- MNIST

Scikit-Learn 机器学习笔记 -- SVM

机器学习--scikit-learn（3）

机器学习 scikit-learn安装

Scikit-learn进行机器学习

机器学习scikit-learn概目

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)