01_简介 - 代码天地

01_简介

其他 2020-02-18 13:34:06 阅读次数: 0

特征工程是机器学习，甚至是深度学习中最为重要的一部分，也是课本上最不愿意讲的一部分。特征工程是data science中最有创造力的一部分。因为往往和具体的数据相结合，很难优雅的系统的讲好。所以课本上会讲一下理论知识比较扎实的归一化，降维等部分，而忽略一些很dirty hand的特征工程技巧。

Kaggle上有一句非常经典的话，数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已，而这恰恰是课堂上最为缺失，一门需要在实践中学习的手艺。

简单来说，如下图所示，特征工程就是通过X，创造新的X'。基本的操作包括，衍生（升维），筛选（降维）。说起来简单，实际中，衍生和筛选都是困难重重，甚至需要非常专业的专家知识。

特征工程主要分成以下几个部分：

data exploration:拿到数据的第一步当然是看看数据是怎么样的，也就是看看里面有什么特征，这些特征什么意思，看看数据是不是结构化的，是不是有空缺数据，用一些图形看看数据长什么样？看看有哪些特征是数值化的（又分为连续和离散的），哪些数值是
feature cleaning：这一步要做的是在数据理解的基础上，得到一个比较整齐的数据，把未结构化的数据结构化，填充空值，对数据标准化。但是这并不能保证我们的数据和模型是强相关的，我们还不能吧这些数据用在模型中，还需要后续的处理。
feature engineering：
- 特征构造：构建未有的特征，从我们已有的特征中构建未有的特征
- 特征转换：
feature selection：去掉坏的特征，有些特征和我们的模型不相关，有些特征是有关联的，只需要保留一个就可以了。

一个典型的机器学习过程：

猜你喜欢

转载自www.cnblogs.com/ziwh666/p/12325763.html

01_简介

01_机器学习简介

01_微信公众平台简介

【Python爬虫】01_爬虫简介

01_【GIT完全讲解】GIT工具简介

kubernetes_02_资源清单_01_简介_20190918

01_爬虫基础知识和requests模块简介

【大模型应用开发教程】01_大模型简介

01_了解jQuery

01_初始Linux

01_名词

01_波浪符

01_名词、冠词

01_使用jupyter

01_初识redis

01_开发前言

01_认识 Python

01_权限组件

01_函数对象

01_策略模式

01_初识Kafka

01_传统线程回顾

01_责任链模式

数学01_机器学习

01_开发环境安装

多线程01_入门

01_前端相关

多线程_01_基础

01_路由选择原理

01_接口测试介绍

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)