本文的目标是概述 UCI ml 数据集目录中的超导数据框的 EDA(探索性数据分析)步骤(https://archive.ics.uci.edu/dataset/464/superconductivty+data)。
该 EDA 是一个更大项目的一部分,该项目旨在根据某些用户输入预测材料的临界温度和化学成分。更多信息可以在这里找到(https://burnt-layer-3b0.notion.site/Product-Specs-a7b5c13b376a415fa9a750d0b7b47f04?pvs=4)。
首先我们用 pandas 加载数据。
#importing pandas
import pandas as pd
import os
#loading dataset
superc_df= pd.read_csv("/content/drive/MyDrive/superconductivty+data (1)/train.csv")
superc_df.head()
number_of_elements mean_atomic_mass wtd_mean_atomic_mass gmean_atomic_mass wtd_gmean_atomic_mass entropy_atomic_mass wtd_entropy_atomic_mass range_atomic_mass wtd_range_atomic_mass std_atomic_mass ... wtd_mean_Valence gmean_Valence wtd_gmean_Valence entropy_Valence wtd_entropy_Valence range_Valence wtd_range_Valence st