机器学习之数据分析 - 代码天地

机器学习之数据分析

其他 2018-09-22 04:43:56 阅读次数: 0

前序工作：数据清洗、数据采样、特征工程、模型选择、交叉验证、寻找最佳超参。

1. 分析数据的各属性，查看各属性的数据是否齐全；

2. 可以利用describe()函数对数据进行一个全面的认识；

3. 可以绘制条形图来查看各个属性或多个属性对目标类别的影响；

4. 遇到缺失值要对缺失值进行处理：

若缺值的样本数占总数比例极高，则可以直接舍弃；

若缺值的样本适中，且该属性为非连续值特征属性，则可以将NaN作为一个新类别；

若缺值的样本适中，且该属性为连续值特征属性，则可以考虑离散化，将NaN作为一个新类别；

若缺值的样本不是很多，则可以利用已有的值拟合一下数据。

5. 对于类目型特征可以进行因子化one-hot编码；

6. 若有的属性的数值范围变化较大，可以对其进行标准化；

7. 构建完模型后可以利用学习曲线判定一下当前模型所处的状态（欠拟合或过拟合）；

过拟合解决方法：做一下特征选择，挑出较好的特征训练；

提供更多的数据；

欠拟合解决方法：需要更多的特征；

8. 做交叉验证来优化模型系统；

9. 通过模型融合来优化模型。

猜你喜欢

转载自blog.csdn.net/qq_24003917/article/details/79503544

机器学习之数据分析

「机器学习」Python数据分析之Numpy

「机器学习」Python数据分析之Numpy进阶

机器学习之精益数据分析

机器学习之数据分析与特征工程

机器学习之数据分析常用方法

数据分析---大数据及机器学习

数据分析 - 机器学习之如何学习及应用机器学习算法（private)

数据分析 - 机器学习之机器学习python库速查表（待）

数据分析 - 机器学习之机器学习算法一览表（待）

数据分析，机器学习 ---初体验

数据分析与机器学习书籍

机器学习 - 船员数据分析

机器学习数据分析方法

「Python 机器学习」Pandas 数据分析

数据分析师养成之路之python:从头学习机器学习(预)

机器学习数据分析之-轮廓系数（评估聚类结果）

数据分析与机器学习之线性回归与逻辑回归(六)

数据分析师养成之路之python(机器学习-决策树(完整))

机器学习-数据分析之朴素贝叶斯过滤垃圾邮件

机器学习系列(2)_数据分析之Kaggle电影TMDB5000

机器学习系列(4)_数据分析之Kaggle鸢尾花iris

机器学习系列(1)_数据分析之Kaggle泰坦尼克之灾

Python数据分析与机器学习----收入的预测分析

DS：机器学习之数据科学方向最强学习路线之数据分析、数据挖掘、机器学习工程化团队之详细攻略(更新中)

Python数据分析之pandas学习

学习数据分析之python的matplotlib

学习数据分析之python的numpy

数据分析之numpy模块学习

Python数据分析之numpy学习

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)