【特征工程】连续数据特征离散化的方法

其他 2018-09-13 17:49:47 阅读次数: 0

离散化

背景

连续数据经常采用离散化处理之后再放入模型。离散化可以理解为提取特征的过程，比如在LR模型，由于是广义线性模型表达能力有限，因此通过特征离散化来了提高非线性学习能力

主要方法

等距离散

取值范围均匀划成n等份，每份的间距相等

等频离散

均匀分为n等份，每份内包含的观察点数相同

优化离散

大致有两类方法：
1. 卡方检验方法：（统计样本的实际观测值与理论推断值之间的偏离程度，卡方值越大，越不符合；卡方值越小，偏差越小，越趋于符合）
- 分裂方法：找到一个分裂点看，左右2个区间，在目标值上分布是否有- 显著差异，有显著差异就分裂，否则就忽略。这个点可以每次找差异最大的点
- 合并方法：先划分如果很小单元区间，按顺序合并在目标值上分布不显著的相邻区间，直到收敛
2. 信息增益方法：
- 分裂方法：找到一个分裂点看，左右2个区间，看分裂前后信息增益变化阈值，如果差值超过阈值（正值，分列前-分裂后信息熵），则分裂。每次找差值最大的点做分裂点，直到收敛
- 合并方法：先划分如果很小单元区间，按顺序合并信息增益小于阈值的相邻区间，直到收敛

猜你喜欢

转载自blog.csdn.net/evillist/article/details/77962435

【特征工程】连续数据特征离散化的方法

连续特征离散化的方法

特征工程——连续特征与离散特征处理方法

连续特征离散化

连续特征的离散化与离散特征的连续化

连续特征离散化的必要性

常用特征离散化方法

机器学习：《特征工程三部曲》之一数据处理（连续特征和离散特征）

【机器学习】对于特征离散化，特征交叉，连续特征离散化非常经典的解释

对于特征离散化，特征交叉，连续特征离散化的解释

特征组合---。。。连续数值变量的一些特征工程方法：二值化、多项式、数据倾斜处理

浅析特征数据离散化的几种方法

机器学习 - 数据预处理中的特征离散化方法

白话总结《特征工程之连续变离散》

连续特征离散化和归一化

DataScience：机器学习中特征工程之连续型变量离散化—变量分箱的简介、常用方法、案例应用(评分卡模型为例)之详细攻略

利用python实现对连续特征的分箱操作（数据离散化）

将连续型特征离散化的需要 or 优势

特征处理之数据离散化

连续特征的离散化：在什么情况下将连续的特征离散化之后可以获得更好的效果？

特征离散化

特征离散化的意义

连续特征如何离散化，为什么要离散化，常用于逻辑回归模型

利用python对包含离散型特征和连续型特征的数据进行预处理

非离散特征数值化

基于sklearn同时处理连续特征和离散特征

Spark连续特征转化成离散特征

离散型特征的处理方法

推荐系统-特征工程-离散型特征的处理：OneHotEncoder

特征工程之离散变量处理

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)