大数据技术（第8节实验课----数据分类和数据筛选） - 代码天地

大数据技术（第8节实验课----数据分类和数据筛选）

其他 2020-01-22 10:50:25 阅读次数: 0

一、对篮球运动员分类

import pandas as pd
t1=pd.read_csv(r"G:\大数据实验数据库\3.大数据实验数据\data.csv")
t2=t1.iloc[:,1:]

from sklearn.cluster import KMeans
cls=KMeans(n_clusters=5)  #建立模型
pre=cls.fit_predict(t2) #进行分类
print(pre)



import matplotlib.pyplot as plt
x=t2.iloc[:,0]
y=t2.iloc[:,1]
z=pre
xx=plt.scatter(x,y,c=z,marker="o")
plt.xlabel("每分钟助攻次数")
plt.ylabel("每分钟得分次数")
plt.rcParams["font.sans-serif"]=["SimHei"]
plt.rcParams["axes.unicode_minus"]=False
plt.show()

二、P217实训2

import pandas as pd
t2=pd.read_csv(r"G:\大数据实验数据库\3.大数据实验数据\credit_card.csv",encoding="GBK")

print(t2.columns)

case1=(t2["逾期"]==1)
case2=(t2["呆账"]==1)
case3=(t2["强制停卡记录"]==1)
case4=(t2["退票"]==1)
case5=(t2["拒往记录"]==1)
case6=(t2["瑕疵户"]==2)

cases1= case1 & case2 & case3 & case4 & case5 & case6
t2=t2[(~cases1)]
print(t2.shape[0])

case1=(t2["呆账"]==1)
case2=(t2["强制停卡记录"]==1)
case3=(t2["退票"]==1)
case4=(t2["拒往记录"]==2)

cases2= case1 & case2 & case3 & case4 
t2=t2[(~cases2)]
print(t2.shape[0])


case1=(t2["频率"]==5)
case2=(t2["月刷卡额"]!=1)


cases3= case1 & case2
t2=t2[(~cases3)]
print(t2.shape[0])

t2

国民小跟班

发布了122 篇原创文章 · 获赞 221 · 访问量 2万+

私信关注

猜你喜欢

转载自blog.csdn.net/jjsjsjjdj/article/details/103446514

大数据技术（第8节实验课----数据分类和数据筛选）

大数据技术（第8节实验课-----机械学习和分类预测）

大数据技术（第9节实验课----数据相关性的分析）

大数据技术（第4节实验课-----pandas处理表格信息）

大数据第9节课（课后习题）

大数据开源技术分类

大数据理论课（第十节-----表格关键数据分类和无关数据剔除）

捡韭菜和数据筛选

第8章分类数据

大数据高级技术课设

大数据技术原理与应用实验七

大数据技术原理与应用实验五

【大数据技术】实验/实操合集

第8课使用函数处理数据

SQL基础查询和数据筛选

交互式电子沙盘数字沙盘大数据系统开发第8课

大数据数据库技术简介与分类分析

数据分析202008第3节课Matplotlib作业

大数据实训第8天

大数据-数据内容分类

【大数据分析实验】分类回归算法

大数据时代的技术hive：hive的数据类型和数据模型

大数据课堂实验

大数据和数据挖掘的学习规划

尚硅谷大数据技术之Linux 第8章软件包管理

大数据技术之Hadoop（MapReduce）第8章常见错误及解决方案

大数据技术之Hadoop（HDFS）第8章 HDFS HA高可用

大数据和云计算技术周报（第8期）:NoSQL特辑

大数据要学习哪些技术呢？大数据技术的分类与选择路线

第五节算法的分类介绍和数据集的划分

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)