机器学习二：数据处理 - 代码天地

机器学习二：数据处理

企业开发 2023-09-18 18:19:24 阅读次数: 0

目的：将整个数据集调整为对算法干扰最小的结构，以便提高最终算法的训练效果。

一、采样
在数据集中，未必所有的数据都需要，用采样提取数据
采样：按照某种规律从样本中挑选目标数据
1、随机采样
有放回/无放回
2、系统采样
等距采样，无放回
3、分层采样
将数据分类，在每个类中抽取，再进行组合
二、归一化
当数据集中的数据变化梯度大小不一，如同时存在年、月、日、米、光年等量纲时，相互之间的变换呈10的n次幂，用归一化可以减少这种计算。
归一化：将数据限定在[0，1]，简化计算

三、去噪
样本中可能存在与常规信息不符的信息，这类信息对训练效果有极大影响，尤其是线性算法。
正态分布3倍方差原则：将落在三倍方差以外的点设为噪声除掉

四、过滤
同一份数据，目的不同，就要用不同的信息进行训练处理，挑取对本次训练有益的数据即为过滤。
去除不想作为训练样本但又不是噪声的数据，这与去噪不同。

猜你喜欢

转载自blog.csdn.net/abandononeself/article/details/118445113

机器学习二：数据处理

机器学习-数据处理

机器学习——Iris的数据处理

机器学习面试—海量数据处理

机器学习——简单的数据处理

【机器学习】时序数据处理

机器学习之数据处理

机器学习基础数据处理

(一)机器学习数据处理

(二)深度学习数据处理-----图片数据处理

学机器学习，不会数据处理怎么行？—— 二、Pandas详解

详解机器学习中的数据处理（二）——特征归一化

Spark ML机器学习:连续型数据处理之二值化-Binarizer

【机器学习】【数据处理】Pandas 处理缺失值

机器学习之数据处理学习笔记

【机器学习】【数据处理】numpy.random.RandomState的用法

【机器学习】【数据处理】Pandas基础知识

机器学习_数据处理及模型评估相关资料

机器学习︱非平衡数据处理方式与评估

机器学习导图系列（1）：数据处理

python数据处理——机器学习树模型介绍

机器学习：数据处理、算法选择、算法验证

端到端的机器学习项目——数据处理部分

Python高光谱遥感数据处理与机器学习

Kaggle Intermediate-机器学习数据处理与特征工程

Databricks中的ApacheSpark：数据处理与机器学习平台

python数据处理（二）

Pandas数据处理二

js 数据处理(二)

Beego学习(二)请求数据处理

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)