【python数据分析】房价数据分析实战（包含源码和数据） - 代码天地

【python数据分析】房价数据分析实战（包含源码和数据）

其他 2019-03-27 11:11:02 阅读次数: 0

版权声明：本文为博主原创文章，欢迎转载，转载请注明作者、原文超链接，博主地址：https://blog.csdn.net/CSDN_fzs https://blog.csdn.net/CSDN_fzs/article/details/85017414

今天我们利用波士顿房价进行简单分析，快速熟悉数据挖掘和分析的一般流程。

1.导入数据。

2.查看数据维度，从结果可以出，该数据一共有506条记录，14个特征，然后再输出特征的名字和数据类型。

3.然后用.head()函数输出前面5条数据，初步查看数据的基本内容。

4.接着用.describe()函数进行数据的描述性分析，查看每一列（也就是每一个特征的数据）的条数、平均值、最大值、最小值、中位数等等，比较全面地了解数据。也可以初步从这里排查异常值的情况。

5.接着，我们可以查看数据的相关性，值越接近1，说明相关性越强。

6.也可以把相关性信息进行可视化，颜色越接近黄色相关性越高，越接近紫色相关性越低。

7.也可以用kind='density'查看数据的密度图，其中符合正态分布的特征有：CRIM、ZN、CHAS、NOX、RM、DIS、B、LSTAT、MEDV。

8.kind='box'为我们直观地展示了每个特征的箱图，可以可视化地看到每个特征的最大最小值、中位数、大小25%和75%的值。

9.scatter_matrix()函数帮助我们了解到每个特征的数据分布情况。

10.为了方便做训练和预测，我们在这里对数据进行分离，用80%的数据进行训练，用剩下的20%做预测。

11.到这一步，我们导入3个模型，分别是逻辑回归、SVN支持向量机和KNN。

12.开始训练数据，这是我们的原始数据，没有做处理。从得到的结果中可以看到，LR的误差最小，接着是KNN，然后是SVN，我们认为误差越小越好。

13.在对数据进行正态化之后，我们发现结果就完全不一样了，这一次我们发现LR模型误差最小，接着是KNN，然后是SVN。

14.为什么要讲数据进行正态化呢？
数据正态化，目的是稳定方差，直线化，使数据分布正态或者接近正态

最后，源码已在图片中给出，需要数据的同学，可以关注公众号回复“房价数据”获取。

标题欢迎关注我的公众号
专注于专注于大数据、微服务架构

猜你喜欢

转载自blog.csdn.net/CSDN_fzs/article/details/85017414

【python数据分析】房价数据分析实战（包含源码和数据）

Python 爬虫和数据分析实战

Python数据分析实战

Python数据分析实战（1）数据分析概述

数据分析源码

Python数据分析实战：获取数据

python数据分析-波士顿房价预测

利用Python进行King County房价数据分析

Python数据分析（6）数据转换和数据聚合

《python数据分析和数据挖掘》——数据预处理

Python 数据分析微专业课程--项目实战09 房价影响因素挖掘

《Python数据分析与挖掘实战》示例源码免费下载

数据分析-python

python数据分析

python 数据分析

Python——数据分析

数据分析Python

Python实战（四）——Python 数据分析

数据分析和数据挖掘的区别

浅谈数据分析和数据挖掘

Python数据分析案例实战

《Python数据分析实战》7 matplotlib

学习python数据分析与挖掘实战

python数据分析与挖掘实战

python数据分析实战---基础准备

Python数据分析与挖掘实战总结

python数据分析与挖掘实战（五）

python数据分析与挖掘实战（四）

python数据分析与挖掘实战（三）

Python 数据分析实战系列教程

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)