python数据分析常用方法总结（持续更新） - 代码天地

python数据分析常用方法总结（持续更新）

其他 2018-10-10 22:25:32 阅读次数: 0

raw_data=pd.read_table("E:/data/book/python_book/chapter6/products_sales.txt",delimiter=",")

1.查看数据样例，raw_data.tail(2)) 或者 head

2.查看数据概况 print(raw_data.describe().round(1).T) T 应该是转换行列的方法

count 统计有值的数量可以看到那些列存在空值

mean 求列均值

std 标准差

min 最小值

25%

50%

75% 猜想应该和四分位数相关（后续确定）

max 最大值

.异常值域分布，查看分类变量的值域分布

col_names=["limit_infor","campaign_type","campaign_level","product_level"]

for col_name in col_names:

unque_value=np.sort(raw_data[col_name].unique())#获取列的唯一值

print('{:*^50}'.format('{1} unique values:{0}').format(unque_value,col_name))

3.缺失值审查

#缺失值审查

na_cols=raw_data.isnull().any(axis=0) #查看每一列是否有缺失值

print('{:*^60}'.format('NA Cols::'))

print(na_cols)#打印缺失值

na_lines=raw_data.isnull().any(axis=1) #查看每一列是否有缺失值

print('total number of NA lines is :{0}'.format(na_lines.sum()))

要点：

isnull()

any(axis=0) #查看每一列是否有缺失值

any(axis=1) #查看每一列是否有缺失值

sum() 对象求和 true 为1 false为0 参与计算

4.变量的共线性检查

print('{:*^60}'.format('Correlation Analyze:'))

short_name=['li','ct','cl','pl','ra','er','price','dr','hr','cf','orders']

long_name=raw_data.columns

print(long_name)

name_dict=dict(zip(long_name,short_name))

print(raw_data.corr().round(2).rename(index=name_dict,columns=name_dict))

print(name_dict)

核心方法 raw_data.corr() 相关性分析

https://blog.csdn.net/lll1528238733/article/details/75114360

发现er和ra 相关性较强后续需要做处理（使用特定算法或者降维）

猜你喜欢

转载自blog.csdn.net/qq_14865711/article/details/82906182

python数据分析常用方法总结（持续更新）

Python常用函数、方法总结（持续更新…）

python数据分析常用方法-1[更新中]

Python数据分析常用的库总结

python数据分析-pandas常用方法

数据分析总结七：python与数据分析

Python数据分析—数据更新

数据分析之Power Pivot常用函数（持续更新）

数据分析中常用的Python技巧

Python 数据分析常用函数

Python数据分析与挖掘常用模块

常用的Python数据分析工具

python数据分析中常用的库

PYTHON 数据分析常用类库

Python数据分析:numpy常用函数

python常用数据分析图表

最常用的python数据分析库

数据分析常用的方法总结

常用数据分析方法总结

转载：python数据分析总结

Python数据分析与挖掘实战总结

Python数据分析岗位总结

Python 数据分析归纳总结

python数据分析案例总结1

python数据分析学习方法

Python数据分析-NumPy库常用用法总结

Python数据分析中常用的函数总结(1)

Python 常用代码段（算法工程师|数据分析|数学建模|大数据）持续更新中

Python Pandas数据分析中常用方法

python进行数据分析处理的常用方法

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)