类别特征的处理方法大全

编程语言 2018-11-06 10:11:34 阅读次数: 0

类别特征在现实数据里十分常见，处理类别特征对于机器学习里的各种算法来说都是必不可少的过程。

本篇文章总结了几种常见的处理类别特征的方法，这些方法不仅有传统的one-hot编码的形式，也有目前最先进的思路。

一、one-hot编码

详见这篇文章。

二、类别特征的最优切分。

该方法需要特定工具的支持，如LightGBM，详见这篇文章。

三、转成数值特征

3.1 利用embedding

利用神经网络的embedding层能够让我们捕捉原来特征的内在属性，使得一些原来意义上离得“近”的东西，在转换后的向量中确实离得近（欧式空间）。详见这篇文章。

3.2 统计每个类别对应的label(训练目标)的均值

注：这里的类别指的是类别特征里的值，并非是训练目标Y。

统计的时候有一些小技巧，比如不把自身的label算进去(leave-me-out, leave-one-out)统计，防止信息泄露。

举例：

关于"leave-me-out"的统计方法。一个简单的例子，比如样本1，3，5属于同个类别（在类别特征上的属性一样），对于样本1，可以用3和5的label均值，样本3用1和5的均值……，用这些均值来替换原来类别特征上的值。这样可以防止每一个样本直接把自身的label信息放到特征里面，减少统计特征的信息泄露，防止过拟合。CatBoost用了类似的算法来处理类别特征。

猜你喜欢

转载自blog.csdn.net/anshuai_aw1/article/details/83625028

类别特征的处理方法大全

lightgbm处理类别特征

类别特征的各种处理总结

高基数类别特征的编码处理

Lightgbm如何处理类别特征？

高数量类别特征（high-cardinality categorical attributes）的预处理方法

一文速学-特征数据类别分析与预处理方法详解+Python代码

类别型特征编码方法总结

预处理时如何处理类别型特征

特征预处理和特征生成 (二)类别特征和序数特征

利用神经网络的embedding层处理类别特征

CatBoost 是如何自动高级处理类别型特征的？

多值类别特征加入CTR预估模型的方法

常用的特征处理方法

特征处理方法

文本特征处理方法

类别特征编码

类别型特征

类别特征OneHot

在对数据进行预处理时，应该怎样处理类别型特征？

1.2在对数据进行预处理时，应该怎样处理类别型特征？

离散型特征的处理方法

特征工程——连续特征与离散特征处理方法

sklearn数据预处理(preprocessing)系列——类别以及特征的编码(Encoder)

LightGBM源码阅读+理论分析（处理特征类别，缺省值的实现细节）

类别型特征处理：sklearn中的one-hot和PCA

高基数类别特征预处理：平均数编码 | 京东云技术团队

机器学习数据中类别变量（categorical variable）的处理方法

树模型对类别变量的 7 种处理方法（Python代码）

类别型特征的编码方式

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)