[] Máquina de aprendizaje Titanic --1- Data Mining

proceso de minería de datos:

(A) DATOS leídos:

  • Leer los datos, y la pantalla
  • indicadores de datos estadísticos
  • Para borrar el tamaño de los datos y completar la tarea

(B) Análisis de las características apreciado

  • Características de un solo, individualmente variable que afecta a los resultados del análisis
  • El análisis estadístico multivariado, teniendo en cuenta el impacto de una variedad de circunstancias
  • gráficos estadísticos concluyeron

(C) lavar los pre-datos

  • Llenar los valores perdidos
  • En donde Normalización / normalizado
  • La detección característica valiosa
  • Análisis de correlación entre la función de

modelo (D)

  • datos de preparación de etiquetas y caracterización
  • conjunto de datos de segmentación
  • Una variedad de algoritmo de modelado comparativo
  • estrategias para mejorar el programa integrado
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('fivethirtyeight')
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline
data=pd.read_csv('train.csv')
data.head()

Aquí Insertar imagen Descripción
Para ver si hay valores perdidos

data.isnull().sum()

PassengerId 0
Sobrevivieron 0
pClass 0
0 Nombre
Sexo 0
Edad 177
SibSp 0
Parch 0
entradas 0
Fare 0
Cabina 687
Embarcado 2
dtype: Int64

data.describe()

Aquí Insertar imagen Descripción
Ver relación global rescatado

f,ax=plt.subplots(1,2,figsize=(18,8))
data['Survived'].value_counts().plot.pie(explode=[0,0.1],autopct='%1.1f%%',ax=ax[0],shadow=True,colors=sns.color_palette(palette='cool'))
ax[0].set_title('Survived')
ax[0].set_ylabel('')
sns.countplot('Survived',data=data,ax=ax[1])
ax[1].set_title('Survived')
plt.show()

Aquí Insertar imagen Descripción

En el conjunto de entrenamiento de 891 pasajeros, sólo alrededor de 350 personas sobrevivieron, sólo el 38,4% de la tripulación sobrevivió al accidente. Tenemos que desenterrar partir de los datos más información, consulte las categorías de pasajeros sobrevivieron, y cuáles no.

Vamos a tratar de utilizar las diferentes características del conjunto de datos para examinar la supervivencia. Como el sexo, edad, ubicación, etc. internado

Donde los datos se divide en: valores discretos y valores continuos

  • valores discretos: género ubicación de embarque (macho y hembra) (S, Q, C)

  • valores continuos: la edad, el precio de las entradas

data.groupby(['Sex','Survived'])['Survived'].count()
Sex     Survived
female  0            81
        1           233
male    0           468
        1           109
Name: Survived, dtype: int64
f,ax=plt.subplots(1,2,figsize=(18,8))
data[['Sex','Survived']].groupby(['Sex']).mean().plot.bar(ax=ax[0],colors='c')
ax[0].set_title('Survived vs Sex')
sns.countplot('Sex',hue='Survived',data=data,ax=ax[1])
ax[1].set_title('Sex:Survived vs Dead')
plt.show()

Aquí Insertar imagen Descripción

Hombres mucho más que las mujeres a bordo. Sin embargo, el número de mujeres guardar casi el doble de la de los hombres. La supervivencia fue una mujer a bordo era de 75%, mientras que los hombres en torno a 18-19%.

  • PClass -> Chalet rescató la situación con las relaciones jerárquicas
pd.crosstab(data.Pclass,data.Survived,margins=True).style.background_gradient(cmap='spring')

Aquí Insertar imagen Descripción

f,ax=plt.subplots(1,2,figsize=(18,8))
data['Pclass'].value_counts().sort_index().plot.bar(colors=sns.color_palette(palette='hls'),ax=ax[0])
ax[0].set_title('Number Of Passengers By Pclass')
ax[0].set_ylabel('Count')
sns.countplot('Pclass',hue='Survived',data=data,ax=ax[1])
ax[1].set_title('Pclass:Survived vs Dead')
plt.show()

Aquí Insertar imagen Descripción

data['Pclass'].value_counts()
3    491
1    216
2    184
Name: Pclass, dtype: int64

1 cabina de clase se da una alta prioridad y de rescate. Aunque el número de pasajeros en pClass 3 mucho más alto, aún sobreviven de ellos es muy baja, alrededor del 25%.

Para pClass1 para la supervivencia es de alrededor de 63%, mientras que pclass2 es de aproximadamente 48%.

  • Impacto de la clase de cabina y el sexo de los resultados
pd.crosstab([data.Sex,data.Survived],data.Pclass,margins=True).style.background_gradient(cmap='summer_r')

Aquí Insertar imagen Descripción

sns.factorplot('Pclass','Survived',hue='Sex',data=data)
plt.show()

Aquí Insertar imagen Descripción

Nos parece que esta cifra factorplot más intuitivo.

Podemos deducir fácilmente de supervivencia femenina pclass1 es 95-96%, ya que sólo tres de las 94 personas rescatadas de las mujeres no pclass1.

Obvio que, independientemente de pClass, la prioridad femenina.

Parece pClass es también una característica importante. Vamos a examinar las otras características

Publicados 116 artículos originales · ganado elogios 10 · vistas 1337

Supongo que te gusta

Origin blog.csdn.net/weixin_44727383/article/details/105052655
Recomendado
Clasificación