proceso de minería de datos:
(A) DATOS leídos:
- Leer los datos, y la pantalla
- indicadores de datos estadísticos
- Para borrar el tamaño de los datos y completar la tarea
(B) Análisis de las características apreciado
- Características de un solo, individualmente variable que afecta a los resultados del análisis
- El análisis estadístico multivariado, teniendo en cuenta el impacto de una variedad de circunstancias
- gráficos estadísticos concluyeron
(C) lavar los pre-datos
- Llenar los valores perdidos
- En donde Normalización / normalizado
- La detección característica valiosa
- Análisis de correlación entre la función de
modelo (D)
- datos de preparación de etiquetas y caracterización
- conjunto de datos de segmentación
- Una variedad de algoritmo de modelado comparativo
- estrategias para mejorar el programa integrado
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('fivethirtyeight')
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline
data=pd.read_csv('train.csv')
data.head()
Para ver si hay valores perdidos
data.isnull().sum()
PassengerId 0
Sobrevivieron 0
pClass 0
0 Nombre
Sexo 0
Edad 177
SibSp 0
Parch 0
entradas 0
Fare 0
Cabina 687
Embarcado 2
dtype: Int64
data.describe()
Ver relación global rescatado
f,ax=plt.subplots(1,2,figsize=(18,8))
data['Survived'].value_counts().plot.pie(explode=[0,0.1],autopct='%1.1f%%',ax=ax[0],shadow=True,colors=sns.color_palette(palette='cool'))
ax[0].set_title('Survived')
ax[0].set_ylabel('')
sns.countplot('Survived',data=data,ax=ax[1])
ax[1].set_title('Survived')
plt.show()
En el conjunto de entrenamiento de 891 pasajeros, sólo alrededor de 350 personas sobrevivieron, sólo el 38,4% de la tripulación sobrevivió al accidente. Tenemos que desenterrar partir de los datos más información, consulte las categorías de pasajeros sobrevivieron, y cuáles no.
Vamos a tratar de utilizar las diferentes características del conjunto de datos para examinar la supervivencia. Como el sexo, edad, ubicación, etc. internado
Donde los datos se divide en: valores discretos y valores continuos
-
valores discretos: género ubicación de embarque (macho y hembra) (S, Q, C)
-
valores continuos: la edad, el precio de las entradas
data.groupby(['Sex','Survived'])['Survived'].count()
Sex Survived
female 0 81
1 233
male 0 468
1 109
Name: Survived, dtype: int64
f,ax=plt.subplots(1,2,figsize=(18,8))
data[['Sex','Survived']].groupby(['Sex']).mean().plot.bar(ax=ax[0],colors='c')
ax[0].set_title('Survived vs Sex')
sns.countplot('Sex',hue='Survived',data=data,ax=ax[1])
ax[1].set_title('Sex:Survived vs Dead')
plt.show()
Hombres mucho más que las mujeres a bordo. Sin embargo, el número de mujeres guardar casi el doble de la de los hombres. La supervivencia fue una mujer a bordo era de 75%, mientras que los hombres en torno a 18-19%.
- PClass -> Chalet rescató la situación con las relaciones jerárquicas
pd.crosstab(data.Pclass,data.Survived,margins=True).style.background_gradient(cmap='spring')
f,ax=plt.subplots(1,2,figsize=(18,8))
data['Pclass'].value_counts().sort_index().plot.bar(colors=sns.color_palette(palette='hls'),ax=ax[0])
ax[0].set_title('Number Of Passengers By Pclass')
ax[0].set_ylabel('Count')
sns.countplot('Pclass',hue='Survived',data=data,ax=ax[1])
ax[1].set_title('Pclass:Survived vs Dead')
plt.show()
data['Pclass'].value_counts()
3 491
1 216
2 184
Name: Pclass, dtype: int64
1 cabina de clase se da una alta prioridad y de rescate. Aunque el número de pasajeros en pClass 3 mucho más alto, aún sobreviven de ellos es muy baja, alrededor del 25%.
Para pClass1 para la supervivencia es de alrededor de 63%, mientras que pclass2 es de aproximadamente 48%.
- Impacto de la clase de cabina y el sexo de los resultados
pd.crosstab([data.Sex,data.Survived],data.Pclass,margins=True).style.background_gradient(cmap='summer_r')
sns.factorplot('Pclass','Survived',hue='Sex',data=data)
plt.show()
Nos parece que esta cifra factorplot más intuitivo.
Podemos deducir fácilmente de supervivencia femenina pclass1 es 95-96%, ya que sólo tres de las 94 personas rescatadas de las mujeres no pclass1.
Obvio que, independientemente de pClass, la prioridad femenina.
Parece pClass es también una característica importante. Vamos a examinar las otras características