python之sklearn-特征工程-1.1特征工程

什么是机器学习

定义

机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。

背景

在这里插入图片描述

什么是sklearn

Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。当我们面临机器学习问题时,便可根据下图来选择相应的方法。Sklearn具有以下特点:

  • 简单高效的数据挖掘和数据分析工具
  • 让每个人能够在复杂环境中重复使用
  • 建立NumPy、Scipy、MatPlotLib之上
    在这里插入图片描述

一、数据集的构成

1,可用的数据集

在这里插入图片描述
Kaggle网址:https://www.kaggle.com/datasets
UCI数据集网址:https://archive.ics.uci.edu/ml/
scikit-learn网址:https://scikit-learn.org/stable/datasets/index.html#datasets

2,数据集的构成
  • 结构:特征值+目标值

eg:
在这里插入图片描述

注:有些数据集可以没有目标值,对于每一行数据我们可以称之为样本。

  • pandas:一个数据读取非常方便以及基本的处理格式的工具
  • sklearn:对于特征的处理提供了强大的接口、

二,什么是特征工程(筛选、处理选择一些合适的特征)

广泛共识:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

1,定义

    特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。

2,意义

    直接影响到模型的预测结果

3,特征工程包含内容
  • 特征抽取
  • 特征预处理
  • 特征降维
    • 特征选择
    • 主成分分析

三,特征工程所需工具及安装

1,scikit-learn库介绍
  • python语言的机器学习工具
  • scikit-learn包括许多知名的机器学习算法的实现
  • scikit-learn文档完善,容易上手,丰富的API
  • 目前稳定版本为0.19
2,安装
pip3 install Scikit-learn==0.19

如果已经安装NumPy和SciPy,安装scikit-learn可以使用:

pip install -U scikit-learn

安装好之后可以通过以下命令查看是否安装成功

import sklearn

注意:
安装scikit-learn需要Numpy、Pandas、Twisted、scipy、Microsoft Visual C++ 14.0等库

3,Scikit-learn包含的内容
  • 分类、聚类、回归
  • 特征工程
  • 模型选择、调优

猜你喜欢

转载自blog.csdn.net/TFATS/article/details/108122458