类别特征的独热编码和二进制编码 - 代码天地

类别特征的独热编码和二进制编码

其他 2020-10-29 12:27:24 阅读次数: 0

我们在建模之前，一般需要对数据进行预处理。对于分类变量，一般模型不能直接作为变量输入，需要进行编码。分类变量常用编码方式如下：

有序变量：序号编码

无序变量：独热编码、二进制编码

下面为大家介绍独热编码和二进制编码之间的区别。

1）独热编码：独热编码会将变量的不同取值（N种取值）分别赋予一个只有1位为0的N维向量。例如星期，共有7个取值，独热编码会把它编码成一个7维稀疏向量。星期一表示为（1,0,0,0,0,0,0），星期二表示为（0,1,0,0,0,0,0），星期三表示为（0,1,0,0,0,0,0），星期日表示为（0,0,0,0,0,0,1）。

2）二进制编码：二进制编码分为两步，①先为变量的每一个取值赋予一个类别ID；②将ID对应的二进制编码作为结果。仍以星期为例，星期一的ID为1，二进制表示为001；星期二的ID为2，二进制表示为010；以此类推，可以得到变量所有取值的二进制编码。

二进制和独热编码的结果如下：

星期	类别ID	二进制编码	独热编码
星期一	1	（0,0,1）	（1,0,0,0,0,0,0）
星期二	2	（0,1,0）	（0,1,0,0,0,0,0）
星期三	3	（0,1,1）	（0,0,1,0,0,0,0）
星期四	4	（1,0,0）	（0,0,0,1,0,0,0）
星期五	5	（1,0,1）	（0,0,0,0,1,0,0）
星期六	6	（1,1,0）	（0,0,0,0,0,1,0）
星期日	7	（1,1,1）	（0,0,0,0,0,0,1）

对比发现：二进制编码后向量长度要比独热编码短；独热编码的向量长度等于特征的取值个数，且每一个取值变量只有一位为0其余全部为1。

猜你喜欢

转载自blog.csdn.net/lz_peter/article/details/101219947

类别特征的独热编码和二进制编码

字符编码和二进制

二进制的编码

二进制编码

python--binascii--二进制和ASCII编码的二进制的转换

Python基础二进制和字符编码

二进制数的编码：原码、反码和补码

老鼠老鼠的二进制编码

二进制编码-负数

字符编码与二进制

字符编码与二进制与转码

【基础】二进制及编码

二进制与字符编码

判断二进制流编码

编码的奥秘：二进制数

uuencode - 对二进制文件编码

间接二进制编码——实现十进制小数的二进制编码

FPGA学习笔记(二)——二进制编码

计算机编码--c语言中输出float的十六进制和二进制编码

编码的奥秘：二进制加法机

二进制数的编码表示

python二进制、字符编码及文件操作

二进制补码（负数编码）、反码、原码

2.cmd简单命令及二进制编码等

赫夫曼编码实现二进制文件压缩解压

二进制编码及浮点数表示

Huffman二进制编码以及文本的压缩与解压

07-二进制与字符编码

05-二进制与字符编码

数独（二进制优化）

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)