《百面机器学习》第一章——特征工程笔记（简）

其他 2020-06-21 11:15:02 阅读次数: 0

特征工程

1. 特征归一化
2. 类别型特征
3. 高维组合特征的处理
4.组合特征
5. 文本表示模型
6. Word2Vec
7. 图像数据不足时的处理方法

1. 特征归一化

对数值类型的特征做归一化，最终将特征的取值都统一到大致相等的数值区间内。

优点：

可将所有特征消除量纲。
避免结果倾向于数值差别较大的特征。

常见的方法有：

线性函数归一化
零均值归一化

适用于：逻辑回归、SVM、神经网络
不适用于：决策树

2. 类别型特征

主要指的非数值型的离散特征，如性别（男、女）。

常见的处理方法：

序号编码：处理具有大小关系的数据。如：高、中、低，映射为3、2、1。
独热编码（one-hot）：处理类别之间无大小关系的离散类别数据。
1）使用系数向量来节省空间
2）配合特征选择降低维度
二进制编码：两步走先赋值为id，再将id二进制化。（相较于one-hot节省空间）

3. 高维组合特征的处理

为了提高复杂关系的拟合能力，通常将一阶离散特征两两组合，构成高阶特征。
如：
在这里插入图片描述

但是对于id类的特征，优于其数量十分庞大，不适用

4.组合特征

特征的组合，如果是简单的两两组合，会产生参数过多、过拟合的问题。并且并不是所有的特征都是有意义的。
所以我们可以借助决策树的方法，来进行特征的选择与组合。

5. 文本表示模型

文本的表示是NLP中的一个基础性的工作与技术，通常采用的方法有如下几个：

词袋模型
TF-IDF值
Word2Vec
LDA

在抽取高层的语义特征时，采用了CNN，比起DNN和RNN的优势在于：

参数量少
训练速度快
降低了过拟合风险. .

6. Word2Vec

其有两种模式：CBOW和Skip-gram
同时每种模式下都有两种训练技巧：层序softmax和负采样

7. 图像数据不足时的处理方法

从模型角度入手：

简化模型
增加惩罚项
集成学习
Dropout

从数据角度入手：

做数据的旋转、平移等操作
对图像增加噪声
改变图像的亮度、清晰度等
GAN

猜你喜欢

转载自blog.csdn.net/qq_19672707/article/details/100004723

《百面机器学习》第一章——特征工程笔记（简）

《百面机器学习》笔记（一）第一章特征工程

百面机器学习第一章--特征工程

《百面机器学习》第一章特征工程

百面机器学习|第一章特征工程

百面机器学习——第一章特征工程（自学）

《机器学习》 —— 第一章：绪论学习笔记

周志华机器学习第一章绪论笔记

《Python机器学习》笔记---第一章

机器学习第一章笔记

机器学习实战——笔记（第一章）

《机器学习》笔记第一章绪论

机器学习第一章绪论笔记

李弘毅机器学习笔记：第一章

第一章学习笔记

吴恩达机器学习学习笔记第一章：绪论初识机器学习

学习笔记(60):第一章：机器学习-机器学习分类02

学习笔记(59):第一章：机器学习-机器学习分类01

学习笔记(62):第一章：机器学习-机器学习关键问题01

学习笔记(61):第一章：机器学习-机器学习分类04

读书笔记《scikit-learn机器学习》第一章机器学习介绍

《机器学习实战》第一章——机器学习基础——笔记

吴恩达《机器学习》课程笔记——第一章：绪论初识机器学习

【吴恩达机器学习笔记】第一章绪论：初识机器学习

《百面机器学习——学习笔记》1、特征工程

周志华西瓜书《机器学习笔记》学习笔记第一章《绪论》

软件工程电子笔记第一章

软件工程笔记第一章概述

软件工程概论笔记（第一章）

Day1 《机器学习》第一章学习笔记

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)