机器学习解决步骤(未完成)

import pandas as pd;
import numpy as np;
# -- encoding:utf-8 --
"""
机器学习的学习领域的变成流程
Create by yht on 2019/2/18
"""
#1.加载数据(数据一般存在于磁盘或者数据库)
path = '/data/hu'
df=pd.read_csv(path,sep=';')
#2.数据清洗
#inplace:该参数的含义是指是否在当前对象上直接修改,默认为False,表示在新对象上修改,原对象不改变;设置为true表示直接在当前原始对象上修改

#删除为nan的数据
df.replace('?',np.nan,inplace=True)
#axis:指定按照什么纬度来删除数据,0表示第一纬,也就是dataFrame中的行。1表示列
#how:指定进行什么样的删除操作,'any'表示只要出现任意一个特征属性为nan,那么久删除当前行或者当前列
#'all' 只有当所有特征属性为nan的时候,才删除当前行或者当前列
df = df.dropna(axis=0,how='any')
df.info()
#3.根据需求获取最原始的特征属性矩阵X和目标属性Y
X = df.iloc[:,2:4].astype(np.float32)
Y = df.iloc[:,5].astype(np.float32)
X.info()
#4.数据分割
# x_train,x_test,y_train,y_test = train_test

#5.特征工程的操作
"""
特征工程也就是特征数据转换,直白来讲就是将数据从A--->B
在转换的时候基于一定的转换规则,这个转换规则你可以认为是函数,所以这个转换规则需要从训练数据中学习
NOTE:特征工程也是需要训练的,和算法模型一样
"""

"""
sklearn中所有的特征工程以及算法的API都基本一样,主要API如下:
fit:基于传入的x和y进行模型训练
transform:使用训练好的模型参数对传入的x做一个数据转换操作,该API一般出现在特征工程中
fit_transform:是fit和transform两个API的组合,基于传入的x和y首先做一个模型训练操作,然后基于训练好的模型对x做一个转换操作,该API一般出现在特征工程中
"""
#StandardScaler:对特征属性中的每一列都进行转换操作,将每列特征数据转换为服从均值为0,方差为1的高斯分布数据
#a.创建对象
#b.模型训练(从训练加数据中招转换函数)
#c.使用训练好的模型对训练数据做一个转换操作
#6.模型对象的构建

#7.模型的训练

#8.模型效果评估(如果不合格需要从第二步重新做模型)

#9.模型保存\模型持久化
"""
方式一:直接保存预测结果
方式二:将模型持久化为磁盘文件
方式三:将模型参数保存到数据库
"""

猜你喜欢

转载自www.cnblogs.com/yaohaitao/p/10396970.html