python机器学习基础6之处理缺失value数据（cook book）

其他 2020-07-31 10:13:53 阅读次数: 0

missing data handling

思路图：

将训练集training set 的label去掉后，复制，然后找到NaN的位置：

sample_incomplete_rows = housing[housing.isnull().any(axis=1)]

1.第一种：
subset 表示含有后面字样的一列，不写这个就要具体把所有的features 都写全，才能进行操作。

dropna( subset = [ ’ '] )

sample_incomplete_rows.dropna(subset=["total_bedrooms"])    # option 1

2.第二种:

dropna( ’ ’ , axis = 1)

sample_incomplete_rows.drop("total_bedrooms", axis=1)       # option 2

3.第三种：
fillna(strategy , inplace = True )

median = housing["total_bedrooms"].median()

sample_incomplete_rows["total_bedrooms"].fillna(median, inplace=True) # option 3

sample_incomplete_rows

综合以上，sklearn 有个专门的class: SimpleImputer.

sklearn.impute.SimpleImputer

 from sklearn.impute import SimpleImputer # Scikit-Learn 0.20+
 #创建对象 imputer, 策略为用中位数填补NaN
imputer = SimpleImputer(strategy="median")

记得去除非数值的列，统计学计算只能进行数值计算。
例如：housing表格中，ocean_proximity是非数值类型数据, 所以进行SimpleImputer的时候要drop掉这一列。

housing_num = housing.drop('ocean_proximity', axis=1)

# 拟合数据
imputer.fit(housing_num)

得到：
SimpleImputer(copy=True, fill_value=None, missing_values=nan,
strategy=‘median’, verbose=0)

# 数据转换
X = imputer.transform(housing_num)

然后转换成dataframe 结构（pandas独有）

housing_tr = pd.DataFrame(X, columns=housing_num.columns,
                          index=housing_num.index)
housing_tr.head()

ps: imputer.statistics_ 可以用来查看数据

猜你喜欢

转载自blog.csdn.net/weixin_43702920/article/details/95568049

python机器学习基础6之处理缺失value数据（cook book）

python机器学习基础5之非数值数据处理（cook book）

python机器学习基础笔记4之数值数据处理（cook book)

python机器学习基础笔记3之加载数据（cook book）

python机器学习基础笔记2之pandas的dataframe（cook book）

python机器学习基础笔记1之数组矩阵（cook book）

qml book 学习笔记

book

python cook book 读书笔记

《The Book of Why》 — Chapter6

python代码执行bash命令 -- python3 cook book

Grails(5)Guide Book Chapter 6 GORM

【词汇】Book5 Unit6

Book - 《Python编程：从入门到实践》

Book - Natural Language Processing with Python (latest version)

SpringCore Reference Book 学习笔记- IOC

The SAS little book 中文版学习

Lua脚本学习 lua-book

Python-xlrd包book.py里的class Book类的使用

【原创】p2p互联金融cook book

周志华《机器学习》公式推导《pumpkin-book》南瓜书

Grails(6)Guide Book Chapter 7 The Web Layer

xv6 book Chapter 2 Operating system organization

xv6 book Chapter 1 Operating system interfaces

【BOOK：敏捷开发修炼之道】ch6 敏捷编码

2018 new Mac book Pro安装python3

python爬取book118中的书籍

【Qt官方例程学习笔记】Address Book Example（代理模型）

SVN book

PMP book

今日推荐

与 Apollo 共创生态：观看7周年大会的心路历程

与 Apollo 共创生态：Apollo7周年大会的心得体会，干货满满

国内各种免费AI聊天机器人(ChatGPT)推荐(上)

智能时代 | 合合信息Embedding模型荣获C-MTEB榜单第一

Ubuntu 24.04 LTS 正式“开放升级”

【送书福利-第四十四期】《深入Rust标准库》

开源日报 | Altman七宗罪；微软必应全球宕机；美国限制AI出口；淘汰VBScript；PostgreSQL 17

wlnmp 一键安装包更新 240522

ChatGPT 严重宕机，结果被造谣“遭遇俄罗斯黑客入侵”

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

周排行

通知、自定义控件颜色

山东财经大学新生赛暨天梯赛选拔赛 C Retina

C#中String类的几个方法(IndexOf、LastIndexOf、Substring)

怎么把WPS文字自动替换直引号为弯引号？

《Spring实战》-第六章:渲染视图（表达式，标签库，模板）

ubuntu11.04安装apache,php,mysql

梦里Babel知多少（一）

python 中whl文件安装

UI设计师月薪大概是多少一般能工作到多少岁

Thinkpad Fn键与Ctrl键互换【不通过BIOS】

每日归档

更多

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)