预处理之特征编码方法总结 - 代码天地

预处理之特征编码方法总结

其他 2018-07-27 18:59:02 阅读次数: 0

（1）one-hot编码：
独热编码即 One-Hot 编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。
已知三个feature，三个feature分别取值如下：
feature1=[“male”, “female”]
feature2=[“from Europe”, “from US”, “from Asia”]
feature3=[“uses Firefox”, “uses Chrome”, “uses Safari”, “uses Internet Explorer”]
one-hot编码后：
feature1=[01,10]
feature2=[001,010,100]
feature3=[0001,0010,0100,1000]
所以，对于前边样本[“male”,“from Asia”, “uses Chrome”]，经过独热编码后，它应该为：
[01,00, 000,000,100, 0000,0010,0000,0000]

（2）sklearn中的DictVectorizer

from sklearn.feature_extraction import DictVectorizer  
measurements = [  
    {'city': 'Dubai', 'temperature': 33.},  
     {'city': 'London', 'temperature': 12.},  
     {'city': 'San Fransisco', 'temperature': 18.},  
 ]  


vec = DictVectorizer()   
print(vec.fit_transform(measurements).toarray())
""" 
输出: 
array([[  1.,   0.,   0.,  33.], 
       [  0.,   1.,   0.,  12.], 
       [  0.,   0.,   1.,  18.]]) 
"""  
print(vec.get_feature_names())
""" 
输出： 
['city=Dubai', 'city=London', 'city=San Fransisco', 'temperature'] 
"""

（3）Python机器学习库SKLearn：数据集转换之特征提取
（4）大规模特征编码问题和工程实践
（5）特征抽取：特征字典向量化和特征哈希变换

猜你喜欢

转载自blog.csdn.net/j904538808/article/details/80731702

预处理之特征编码方法总结

类别型特征编码方法总结

推荐收藏，这或许是最全的类别型特征的编码方法总结

URI编码方法

91：编码方法

Embedding 编码方法

机器学习之数据预处理——特征编码(标签编码，独热编码)

常用数据预处理与特征选择方法总结记录

图像处理压缩Huffman编码方法实现

js对字符串进行编码方法总结

Linux修改系统编码方法总结

Solidity之abi.encode各编码方法使用

Scikit-learn数据预处理分类变量编码之字段特征编码

URL编码方法 encodeURIComponent（）

字符编码方法概述

特征选择与数据预处理方法

特征工程—特征预处理及K-近邻算法总结

数据预处理（方法总结）

数据预处理方法总结

图像预处理方法总结

特征工程（5）-数据预处理哑编码

记录两个编码方法

地图数据的类型及编码方法

机器学习-标记编码方法

leetcode笔记91—编码方法

php检测文件编码方法

python之sklearn-特征工程-1.3 特征预处理

机器学习基础之《特征工程（3）—特征预处理》

特征预处理——特征表达

特征工程——特征预处理

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)