特征工程（机器学习） - 代码天地

特征工程（机器学习）

其他 2019-03-13 09:40:53 阅读次数: 0

特征工程

特征工程

特征=>数据中抽取出来的对结果预测有用的信息
特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程

意义

更好的特征意味着更强的灵活度
更好的特征意味着只需用简单模型
更好的特征意味着更好的结果

数值型数据

幅度调整与归一化

$\frac{x-min}{max-min}$
标准化

$\frac{x-\bar{x}}{\delta}$

统计值

$分位数使用$

离散化

将年龄一列分为三列：

age>60	age>=6 and age <=60	age <6

4.1 等距切分
均匀分布的数据适合此切分方式

4.2 等平切分
按照分位数进行切分

类别型数据

One-hot编码/哑变量

r	g	b	y
1	0	0	0
0	1	0	0

Hash 技巧（文本处理方式）

John likes to watch movies
mary likes movies too
john also likes football

john	likes	to	watch	movies	Mary	too	also	football
1	1	1	1	1	0	0	0	0
0	1	0	0	1	1	1	0	0
1	1	0	0	0	0	0	1	1

Histogram映射

通过训练集得到映射关系男->[1/3,2/3,0]，则在测试集中如果遇到男，则直接将其映射为[1/3,2/3,0]即可

时间类型数据

连续值

a) 持续时间（单页浏览时长）
b) 间隔时间（上次购买/点击离现在的时间）
离散值

a) 一天中哪个时间段
b) 一周中星期几
c)一年中哪个星期
d)一年中哪个季度
e) 工作日/周末

文本类型数据

词袋

文本数据预处理后，去掉停用词，剩下的词组成的list，在词库中的映射稀疏向量。
其原理与Hash技巧相同
把词袋中的词扩充到n-gram

“bi grams are cool” 扩充至如下：
[‘bi’ ‘grams’ ‘are’ ‘cool’ ‘bi grams’ ‘grams are’ ‘are cool’]
Tf-idf特征

TF-IDF是一种统计方法，用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料出现的频率成反比下降
TF:Term Frequency
TF(t)=(词t在当前文中出现的次数)/(t在全部文档中出现的次数)
IDF：Invert Document Frequency
IDF(t)=ln(总文档数/含t的文档数)

统计型数据

根据实际情况确定
组合型数据

可以根据决策树确定
特征选择原因

冗余：部分特征的相关度太高，消耗计算性能

噪声：部分特征是对预测结果有负影响

特征选择VS降维

前者只踢掉原本特征里和结果预测关系不大的，后者做特征的计算组合构成新特征

SVD或者PCA确实也能解决一定的高纬度问题

特征选择方式之过滤型

评估单个特征和结果之间的相关程度，排序留下Top相关的特征部分
Person相关系数，互信息，距离相关度等
缺点：没有考虑到特征之间的关联作用，可能把有用的关联特征剔除掉

特征选择方式之包裹型

把特征选择看作一个特征子集搜索问题，筛选各种特征子集，用模型评估效果
典型的包裹型算法为递归特征删除算法
比如使用逻辑回归，使用方法如下：

a. 用全量特征跑一个模型
b. 根据线性模型的系数，删除掉5-10%的弱特征，观察准确率变化
c. 逐步进行，直至准确率出现大的下滑停止

常见特征选择方式之嵌入型

根据模型来分析特征的重要性
最常见的方式为用正则化来做特征选择

猜你喜欢

转载自blog.csdn.net/weixin_42150936/article/details/86764231

机器学习—特征工程

机器学习特征工程

【机器学习】特征工程

机器学习--特征工程

特征工程（机器学习）

特征工程-机器学习

机器学习——特征工程

机器学习特征工程

机器学习-特征工程

机器学习-----特征工程

机器学习----特征工程

机器学习中的特征工程

机器学习之特征工程

机器学习-特征工程的方法

【机器学习】特征工程实践

机器学习之特征工程

机器学习中特征工程

机器学习值特征工程

机器学习 | 特征工程- 总结

【机器学习】特征工程概述

机器学习 | 特征工程- 引言

机器学习特征工程总结

机器学习--特征工程0

机器学习笔记—特征工程

面向机器学习的特征工程

机器学习---特征工程介绍

机器学习：特征工程补充

机器学习数据特征分析------特征工程

机器学习特征工程之特征抽取

机器学习数据特征分析特征工程

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)