数据——数据预处理 - 代码天地

数据——数据预处理

其他 2019-03-27 12:26:50 阅读次数: 0

1. 聚集

概念：将两个或多个对象合并成单个对象。
优点：a.数据归约导致的较小数据集需要较少的内存和处理时间。
　　　b.对象或属性群的行为通常比单个对象或属性的行为更加稳定。
缺点：可能丢失有趣的细节。

2.抽样

概念：选择数据对象子集进行分析。
优点：可以压缩数据量

3.维归约

优点：a.降低维度(数据属性的个数)，提高算法效果。
　　　b.降低数据挖掘算法的时间和内存需要。

维灾难：随着数据维度的增加，许多数据分析变得非常困难。

4.特征子集选择

概念：仅使用特征的一个子集。
提出原因：冗余和不相关的特征可能降低分类的准确率，影响所发现的聚类的质量。

5.特征创建

概念：可以由原来的属性创建新的属性集，更有效地捕获数据集中的重要信息。

创建新属性方法：

特征提取：由原始数据创建新的特征集。
映射数据到新的空间：使用一种完全不同的视角挖掘数据可能揭示出重要和有趣的特征。(例如时域到频域的转换)
特征构造：原始数据集的特征具有必要的信息，但其形式不适合数据挖掘算法，在这种情况下，一个或多个由原特征构造的新特征可能比原特征更有用。

6.离散化和二元化

概念：某些数据挖掘算法，要求数据是分类属性形式，常常需要将连续属性变换成分类属性(离散化)，并且连续和离散属性可能都需要变换成一个或多个二元属性(二元化)。

二元化例子：一个分类属性到三个二元属性的变换 3→011

猜你喜欢

转载自blog.csdn.net/qq_32486393/article/details/87868729

数据——数据预处理

数据增强及预处理

tflearn数据预处理

pandas数据预处理

preprocessing数据预处理

大数据的预处理

数据预处理

数据挖掘---预处理

01数据预处理

数据预处理备忘

pandas 数据预处理

【PyTorch】：数据预处理

sklearn——数据预处理

数据预处理方法

数据预处理技术

图像数据预处理

Taianic 数据预处理

数据挖掘预处理

StandardScalers数据预处理

Python数据预处理

浅析数据预处理

数据预处理总结

sklearn数据预处理

数据集的预处理

R 数据预处理

算法-数据预处理

数据预处理--噪声

数据预处理--采样

数据预处理案例

sklearn数据预处理

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)