动手学数据挖掘笔记(数据加载及探索性数据分析)

数据挖掘笔记:

(一)动手学数据挖掘笔记(数据加载及探索性数据分析)

(二)动手学数据挖掘笔记(数据清理&特征处理)

(三)动手学数据挖掘笔记(数据重构)

(四)动手学数据挖掘笔记(数据可视化)

(五)动手学数据挖掘笔记(建模与评估)

数据加载及探索性数据分析

1.在用read_csv()函数读取数据时,有时数据量会很大,可以用chunksize参数来设置读取的长度,分批读取并分批处理。
2.当dataframe中的特征是英文时可以,可以将其转化为中文。

df.rename(columns={
    
    'PassengerId':'乘客编号', 'Survived':'是否幸存', 'Pclass':'乘客仓位等级', 'Name':'乘客名字', 'Sex':'性别', 'Age':'年龄', 'SibSp':'堂兄弟/妹个数', 'Parch':'父母与小孩个数', 'Ticket':'船票信息', 'Fare':'票价', 'Cabi':'客舱', 'Embarke':'登船港口'}, inplace = True)

3.可以将重新更换特征名称的数据集另存为。

df.to_csv('train_Chinese.csv')

4.删除dataframe的某一列可用两种方法。

# 此种方法直接在原dataframe中删除'a'列
del df_test['a']
# 此方法删除'a'列后返回删除后的列,但不在原dataframe中删除列。
# 即print()两个打他frame,df_test比a要多一列'a'。
df_test = pd.read_csv('test_1.csv')
a = df_test.drop('a', axis=1)

print(a)
print(df_test)
# 第一行代码可以看作将['PassengerId','Name','Age','Ticket']列隐藏,展示其他数据。
# df本身依然不变。
# axis=1表示删除列,0表示删除行。
df.drop(['PassengerId','Name','Age','Ticket'], axis=1)
df
# 当inplace设为True时,就在原先的dataframe上直接删除。
df_test.drop(['PassengerId','Name','Age','Ticket'], axis=1, inplace=True)
df_test

5.reset_index()重置索引,不想保留原来的index,使用参数 drop=True,默认 False。

midage = midage.reset_index()
midage.head(20)

在这里插入图片描述

midage = midage.reset_index(drop=True)
midage.head(20)

在这里插入图片描述
6.将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来。

midage.loc[[100, 105, 108],["Pclass", "Sex", "Name"]]

在这里插入图片描述
7.使用iloc方法将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来。

midage.iloc[[100, 105, 108], [2, 3, 4]]

在这里插入图片描述
8.sort_values可以根据行或列的值来进行重新排序。

dataframe = pd.DataFrame(np.arange(12).reshape((3, 4)), 
                         index=['3', '2', '1'], 
                         columns=['d', 'c', 'b', 'a'])
dataframe

在这里插入图片描述

# 通过'b'列排序。
dataframe.sort_values(by='b', ascending=False)
dataframe

在这里插入图片描述
根据sort_index()可以根据行或列索引重新排序。

# 让列索引降序排序
dataframe.sort_index(axis=1, ascending=False)

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_40317204/article/details/108089618