在对数据进行预处理时，应该怎样处理类别型特征？ - 代码天地

在对数据进行预处理时，应该怎样处理类别型特征？

其他 2019-03-22 20:18:19 阅读次数: 0

类别型主要指性别，血型等只有在有限选项内取值的特征。类别型特征原始输入通常是字符串形式，除了决策树等少量模型能直接处理字符串形式的输入，对于逻辑回归，支持向量机等模型来说，类别型特征必须经过处理转换成数值型特征才能正确工作。

在对数据进行预处理时，应该怎样处理类别型特征？

序号编码 Ordinal Encoding

序号编码通常处理类别间具有大小关系的数据。例如成绩，可以分为低，中，高三档，并且存在高>中>低的排序关系。序号编码会按照大小关系对类别型特征赋予一个数值ID，例如高，中，低表示 3，2，1转换后依然保留大小关系。

2.独热编码One-hot Encoding

独热编码通常处理类别间不具有大小关系的特征。例如血型，一共有4取值（A,B,AB,O),独热编码会把血型变成一个4维稀疏向量。

A表示（1000），B表示（0100），AB(0010) ,O表示（0001）

使用稀疏向量来节省空间，在独热编码下，特征向量只有某一维取值为1，其他位置取值均为0.因此可以利用向量的稀疏表示有效的节省空间，并且目前大部分算法都支持稀疏向量的输入。

配合特征选择来降低维度。高纬度特征会带来几方面的问题。

一是K近邻算法中，高维空间下两点之间的距离很难得到有效的衡量；

二是在逻辑回归模型中，参数的数量会随着维度的增高而增加，容易引起过拟合的问题；

三是通常只有部分维度是对分类，预测有帮助，因此可以考虑配合特征选择来降低维度；

3.二进制编码Binary Enconing

二进制编码先用序号编码给每个类别赋予一个类别ID ，然后将类别ID 对应的二进制编码作为结果。

二进制编码本质利用了二进制对ID 进行哈希映射，最终得到0/1特征向量，且维度小于独热编码，节省了存储空间

猜你喜欢

转载自blog.csdn.net/qq_29678299/article/details/88675331

在对数据进行预处理时，应该怎样处理类别型特征？

1.2在对数据进行预处理时，应该怎样处理类别型特征？

预处理时如何处理类别型特征

利用python对包含离散型特征和连续型特征的数据进行预处理

数据特征预处理

python 使用scikit-learn对数据进行预处理

如何用 pandas 对数据进行预处理？

使用sklearn进行数据预处理特征选择

sklearn数据预处理(preprocessing)系列——类别以及特征的编码(Encoder)

一文速学-特征数据类别分析与预处理方法详解+Python代码

特征工程与数据预处理

数据预处理与特征选择

数据预处理与特征工程

数据预处理（特征工程）

【特征工程】数据预处理

数据预处理2--特征处理

特征预处理和特征生成 (二)类别特征和序数特征

lightgbm处理类别特征

深度学习对数据集的预处理

四、数据预处理——处理连续型特征：二值化与分段

【skLearn 数据预处理和特征工程】数据预处理

CatBoost 是如何自动高级处理类别型特征的？

tensorflow 做多元线性回归时怎样对非数据型数据（分类型数据）进行处理（编码）

特征预处理- Kaggle比赛必须了解的数据预处理

数据预处理---数据清理 & 特征工程

数据预处理与数据特征选定

数据预处理——数据特征选择

Python 学习笔记之——用 sklearn 对数据进行预处理

数据预处理——包裹式特征选取

数据预处理——过滤式特征选取

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)