《百面机器学习》笔记（一）第一章特征工程 - 代码天地

《百面机器学习》笔记（一）第一章特征工程

其他 2020-02-22 10:59:34 阅读次数: 0

绪论

对于一个机器学习问题，数据和特征往往决定了结果的上限，而模型、算法的选择及优化是在逐步接近这个上限。

常见的数据类型：

结构化数据：可以看作是关系型数据库的一张表，每一列都有清晰的定义，包含了数值型、类别型两种基本类型；每一行数据表示一个样本信息。
非结构化数据：非结构化数据主要包括文本、图像、音频、视频数据，其包含的信息无法用一个简单的数值表示，也没有清晰的类别定义，并且每条数据的大小各不相同。

特征归一化

什么是特征归一化：
将数值类型的特征统一到一个大致相同的数值区间内。
进行特征归一化的常用的方法：

Min_Max Scaling
对原始数据进行线性变化，使结果映射到[0,1]之间，实现对原始数据的等比缩放。
$X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}$
Z_score Normalization
他会将数据映射到均值为0，标准差为1的分布上
$z = \frac{X-\mu}{\sigma}$

为什么要对数值型特征进行归一化？
以梯度下降算法为例，在相同的学习速率情况下，数值较大的特征将进行更多的迭代步数。反观，对数据进行归一化后，可以更容易得通过梯度下降找到最优解。
哪些情形下需要进行特征归一化，哪些情形下不需要
通过梯度下降求解得模型通常是需要归一化的，包括线性回归、逻辑回归、支持向量机、神经网络等模型。
但对于决策树来说并不适用。

白儿墨

发布了38 篇原创文章 · 获赞 9 · 访问量 2431

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_44264662/article/details/100749203

《百面机器学习》笔记（一）第一章特征工程

《百面机器学习》第一章——特征工程笔记（简）

百面机器学习第一章--特征工程

《百面机器学习》第一章特征工程

百面机器学习|第一章特征工程

百面机器学习——第一章特征工程（自学）

机器学习面试 —— 第一章特征工程 01-04

第一章学习笔记

机器学习第一章

软件工程学习笔记——第一章概述

现代软件工程第一章学习笔记

金融工程学学习笔记第一章

第一章（1.2）机器学习算法工程师技能树

《机器学习》 —— 第一章：绪论学习笔记

《百面机器学习——学习笔记》1、特征工程

周志华机器学习第一章绪论笔记

《Python机器学习》笔记---第一章

机器学习第一章笔记

机器学习实战——笔记（第一章）

《机器学习》笔记第一章绪论

机器学习第一章绪论笔记

李弘毅机器学习笔记：第一章

软件工程电子笔记第一章

软件工程笔记第一章概述

软件工程概论笔记（第一章）

Flex学习第一章

python学习第一章

java学习-第一章

Git学习第一章

mongodb学习第一章

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)