数据挖掘：理论与算法笔记（1） - 代码天地

数据挖掘：理论与算法笔记（1）

其他 2018-08-20 13:23:22 阅读次数: 0

基础概念：
（1）数据清洗是耗神的，原因有信息不完整，噪点（比如工资为-1元），前后不一等问题。
（2）数据缺失的原因有：设备故障，采集不当，N/A（Not Apploicable：比如对男性检查宫颈，对学生调查工资）
（3）数据缺失的类型：完全随机缺失，有区分的缺失（女性不愿意说出体重），不完全随机缺失
处理数据缺失的方法：
（1）Ignore
（2）Fill possible number（再次调查或有依据的推测可能的值）
（3）统一填写（平均值或其他固定数字）
一个例子：
对特定的x，我们倾向于猜测于点在红色区域，此外，y的取值应成正态分布。
离群点
取决于相对于其他点的距离的差距，即比较性的而非量化的。
LOF方法
（局部异常因子算法-Local Outlier Factor）**
采用LOF方法进行离群点检测时：LOF值越大，越可能为离群点。
简单的说，是一个样本点周围的样本点所处位置的平均密度比上该样本点所在位置的密度。
如果密度大于1，则很有可能是异常点。
异常点和oulier的区别
姚明是oulier，而巨人症患者是异常点。
重复信息
1.调查信息表格式不同
2.不同的描述对应一个人
重复信息的比较：窗口化比较
前提：两者所属区域相近，生成的KEY类似。
方法：只和前面所有的信息比较，再输入下一条信息
这里写图片描述
3.文化信息
由于外国人的姓氏较为多，独一无二，所以可作为Prime key，再用名做deputy key。

猜你喜欢

转载自blog.csdn.net/weixin_42511216/article/details/81626159

数据挖掘：理论与算法笔记（1）

数据挖掘理论与算法

数据挖掘：理论与算法

数据挖掘学习笔记（1）

数据挖掘10大算法(1)——PageRank

数据挖掘FP-树算法1

数据挖掘笔记——遗传算法

数据挖掘笔记(9)-FPGrowth算法

【数据挖掘学习笔记】1.数据挖掘概述

Python数据挖掘学习1数据理论及数据分类

Python数据挖掘学习笔记（1）文本挖掘入门

数据挖掘导论学习笔记1（第1 、2章）

数据挖掘里面机器学习算法的讲解1

数据挖掘笔记-情感倾向点互信息算法

数据挖掘笔记(5)-关联规则算法Apriori

【数据挖掘】笔记一-兴趣度度量&Apriori算法

【转载】数据挖掘系列（1）关联规则挖掘基本概念与Aprior算法

（数据挖掘）Apriori 算法（理论及算法）简单易懂

数据挖掘导论学习笔记（2）----- 数据（1）

数据挖掘导论笔记1——第二章：数据

KMP算法(1)-理论

算法理论（1）

算法笔记(1)——递归的理论及其应用

数据挖掘之聚类分析学习笔记(1)

数据挖掘导论学习笔记（1）-----基本概念

python数据挖掘笔记——回归（1）：简单线性回归

数据挖掘的简介（1）

数据挖掘随笔1

浅谈数据挖掘（1）----什么是数据挖掘

数据挖掘入门笔记

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)