Python3利用pandas，sklearn进行关联度分析以及预测的demo - 代码天地

Python3利用pandas，sklearn进行关联度分析以及预测的demo

其他 2020-02-13 16:20:30 阅读次数: 0

做个简单的demo记录下，防止忘记

先看原始数据：

一共有5列：日期，金钱，性别，工作年限,年龄。

我们的目的是要分析各个维度对金钱的影响。

关联度分析代码：

# -*- coding: utf-8 -*-


from numpy import array
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt



df_base = pd.read_csv('F://tips.csv',)
plt.figure(figsize=(16,12))
#对性别进行onehot
pf = pd.get_dummies(df_base['sex'])
df = pd.concat([df_base, pf], axis=1)
df.drop(['sex'], axis=1, inplace=True)

print(df)
sns.heatmap(df.corr(),annot=True,fmt=".2f")
#删掉关联度比较小的列
df.drop(['age'], axis=1, inplace=True)
df.to_csv('result.csv')
plt.show()

运行后我们可以看到heatmap展示出了各个维度之间的关联系数：

图中很明显的可以看到，man对money有正相关系数0.6，woman对money有负相关-0.6，工作年限对money的正相关系数很高，age基本无相关。所以我们把age这一列删掉，将sex进行了一把onehot，转换为man和woman两列（String类型的列只能通过onehot才可以分析）。生成了新的csv。

接下来我们做预测：

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
from sklearn import linear_model


df=pd.read_csv('result.csv')
sns.set(style='whitegrid', context='notebook')   #style控制默认样式,context控制着默认的画幅大小
cols = ['man', 'woman', 'money','workyears']
sns.pairplot(df[cols], size=2.5)
plt.tight_layout()
plt.show()
# 建立模型
model =linear_model.LinearRegression()
# 开始训练
model.fit(df[['man', 'woman','workyears']], df['money'])
print("coefficients: ", model.coef_)
w1 = model.coef_[0]
w2 = model.coef_[1]
w2 = model.coef_[2]
print("intercept: ", model.intercept_)
b = model.intercept_
x_test = [[1,0,6]]
predict = model.predict(x_test)
print("predict: ", predict)

分布基部符合上一步的猜测

这里我们用了【1，0，6】数据来做预测即：man:1,woman:0,workyears:6

结果：

小白223

发布了7 篇原创文章 · 获赞 5 · 访问量 3467

私信关注

猜你喜欢

转载自blog.csdn.net/babing18258840900/article/details/90199686

Python3利用pandas，sklearn进行关联度分析以及预测的demo

灰色关联度分析

matlab灰色预测关联度

MATLAB灰色关联度分析

【数学建模】灰色关联度分析

灰色关联度

灰色关联度分析算法（包含matlab源码及实例）

Matlab评价模型--灰色关联度分析

关联度和支持度

数据可视化之分析篇（四）PowerBI分析模型：产品关联度分析

MATLAB小技巧（17）矩阵分析--灰色关联度计算

利用Python进行数据分析（3）：第4章，Pandas入门

Python3数据分析入门实战_05 玩转Pandas 下 [分组和透视实战Demo]

Python3 利用openpyxl 以及jieba 对帖子进行关键词抽取——抽取存储

Python3 利用openpyxl 以及jieba 对帖子进行关键词抽取 ——向量生成

python3 Pandas

利用python-pandas和sklearn进行天池移动推荐离线赛的全过程

Python3 利用openpyxl 以及jieba 对帖子进行关键词抽取 ——对抽取的关键词进行词频统计

Python3 利用openpyxl 以及jieba 对帖子进行关键词抽取 ——对抽取结果进行处理

python利用LSTM进行时间序列分析预测

pandas-利用python进行数据分析

利用Python进行数据分析——pandas入门

利用Python进行数据分析——Pandas

利用Python进行数据分析之pandas

【利用python进行数据分析】pandas入门

利用Python进行数据分析--Pandas(1)

利用Python进行数据分析-Pandas

《利用Python进行数据分析》---pandas入门2

《利用Python进行数据分析》---pandas入门

利用python进行数据分析—五、pandas入门

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

事务隔离级及脏读、幻读和不可重复读

rtos：zephyr同步信号量

把对象转换为JSON格式的数据

iOS Dev (56) iTunes Store 销售日报更新时间

Failed to start mongod.service: Unit not found;mongodb in unbuntu

Upgrading PHP on CentOS 6.5 (Final)

（四）王道机试指南___排版问题

TensorFlow之手写体识别

xcode xib报错 Safe Area Layout Guide Before IOS 9.0

【LeetCode】76. Minimum Window Substring（C++）

每日归档

更多

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)