Kaggle教程机器学习入门2 数据探索

其他 2020-01-16 08:50:31 阅读次数: 0

转载请注明出处：https://leytton.blog.csdn.net/article/details/101166749
如果本文对您有所帮助，请点个赞让我知道哦 ?

《Kaggle教程机器学习入门》系列课程目录
Kaggle教程机器学习入门1 模型是怎样工作的
 Kaggle教程机器学习入门2 数据探索
 Kaggle教程机器学习入门3 你的第一个机器学习模型
 Kaggle教程机器学习入门4 模型验证
 Kaggle教程机器学习入门5 欠拟合与过拟合
 Kaggle教程机器学习入门6 随机森林
 Kaggle教程机器学习入门7 继续你的征程

1、使用Pandas熟悉数据

任何机器学习项目的第一步都是熟悉数据。你可以使用Pandas来实现。Pandas是数据科学家用来探索和操作数据的主要工具。大多数人在代码中将panda简写为pd，使用以下代码将其引用：

import pandas as pd

Pandas最重要的部分就是DataFrame了。DataFrame保存了类似表的数据类型，就像Excel中的工作表或SQL数据库中的表。
Pandas具有强大的函数来实现大部分你想要的数据操作。

举个例子，我们来看看澳大利亚墨尔本的房价数据。
数据文件路径在../input/melbourne-housing-snapshot/melb_data.csv。

我们使用以下命令来加载和查看数据：

# 文件路径
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# 读取并保存数据到DataFrame类型变量melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path) 
# 打印数据概览
melbourne_data.describe()

在这里插入图片描述

2、数据描述详解

如上图所示，结果打印了8个数据。第一个count显示有多少个未缺失的数据。缺失值的产生有很多原因。例如，本身只有一间卧室的房子，就不会存在第二间卧室的数据。我们重回数据缺失的主题。

第二个值是mean，也就是平均值。std是标准偏差，它体现了数据分布情况。

min和 max 比较好理解，分别是指最小值和最大值；
25%, 50%, 75%是指，我们将数据从小到大排列，返回25%，50%，75%数据量时的数字。

3、去吧，皮卡丘

从这里开启你的编程实战吧~

原文：
https://www.kaggle.com/dansbecker/basic-data-exploration

李乾文博客专家

发布了154 篇原创文章 · 获赞 349 · 访问量 71万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/Leytton/article/details/101166749

Kaggle教程机器学习入门2 数据探索

Kaggle教程机器学习中级7 数据泄露

Kaggle教程机器学习中级6 XGBoost

使用python进行全面数据探索--House Prices: Advanced Regression Technique--kaggle入门（38）

kaggle三个入门竞赛教程

Kaggle竞赛入门教程案例

Kaggle Machine Learning 教程学习（六）

Kaggle Machine Learning 教程学习（五）

机器学习：【15】超详细kaggle注册图文教程

Kaggle房价预测：数据探索——练习

Kaggle竞赛入门教程之Kaggle简介（新手向）

【计算机视觉 | Kaggle】保姆级教程：入门 Kaggle 的步骤详细介绍

机器学习系列(2)_数据分析之Kaggle电影TMDB5000

比赛教程-如何参加Kaggle数据科学比赛（上）

Kaggle从入门到实战教程（新手必备）

【机器学习】数据探索---python主要的探索函数

数据(机器学习/深度学习)竞赛平台——Kaggle

【机器学习】鸢尾花数据探索

机器学习——数据探索大致流程

机器学习笔记 - 探索 keras 数据集

「Python 机器学习」Matplotlib 数据探索

（原创）(一) 机器学习之数据探索

Kaggle泰坦尼克数据探索代码与理解

Kaggle Intermediate-机器学习数据处理与特征工程

Kaggle CTO 力荐：从 Kaggle 历史数据看机器学习竞赛趋势

2 机器学习入门——逻辑回归之kaggle泰坦尼克号竞赛

1入门--5探索数据

6、探索你的数据(2)

Spark2-数据探索

Spark 2.x 机器学习实战（算法篇：基于Kaggle竞赛数据集，六大算法模型构建）

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)