El aprendizaje automático] [Titanic --2- Data Mining

Las variables continuas fueron rescatados influencia en la situación

  • Edad> Efecto de los valores sucesivos de las características de los resultados
print('Oldest Passenger was of:',data['Age'].max(),'Years')
print('Youngest Passenger was of:',data['Age'].min(),'Years')
print('Average Age on the ship:',data['Age'].mean(),'Years')

El más antiguo de pasajeros fue de: 80,0 años
más joven pasajero fue de: 0,42 años
Edad Media en el barco: 29.69911764705882 años

f,ax=plt.subplots(1,2,figsize=(16,5))
sns.violinplot("Pclass","Age", hue="Survived", data=data,split=True,ax=ax[0])
ax[0].set_title('Pclass and Age vs Survived')
ax[0].set_yticks(range(0,110,10))
sns.violinplot("Sex","Age", hue="Survived", data=data,split=True,ax=ax[1])
ax[1].set_title('Sex and Age vs Survived')
ax[1].set_yticks(range(0,110,10))
plt.show()

Aquí Insertar imagen Descripción

Resultados:
1) la tasa de supervivencia de los niños menores de 10 aumenta con el número de passenegers.

2) una probabilidad de supervivencia más alta rescató algunos de la edad de 20-50.

3) Para los hombres, con la edad, reducción de la supervivencia.

Llenar los valores perdidos

  • media
  • experiencia
  • modelo de regresión para predecir
  • fuera de malas hierbas

Como hemos visto antes y edad hay 177 valor vacío. Con el fin de sustituir estos valores perdidos, podemos asignar la edad media de los conjuntos de datos a ellos.

Pero el problema es que hay muchas personas de diferentes edades. La mejor manera es encontrar una edad adecuada!

Podemos comprobar el nombre de la función. De acuerdo con esta característica, podemos ver que hay nombres como señor o la señora esos nombres, por lo que podemos asignar al valor medio de los esposos respectivos grupos.

for i in data:
    data['Initial']=data.Name.str.extract('([A-Za-z]+)\.') 
data

Aquí Insertar imagen Descripción

pd.crosstab(data.Initial,data.Sex).T.style.background_gradient(cmap='summer_r')

Aquí Insertar imagen Descripción

data['Initial'].replace(['Mlle','Mme','Ms','Dr','Major','Lady','Countess','Jonkheer','Col','Rev','Capt','Sir','Don'],['Miss','Miss','Miss','Mr','Mr','Mrs','Mrs','Other','Other','Other','Mr','Mr','Mr'],inplace=True)
ata.groupby('Initial')['Age'].mean()
Initial
Master     4.574167
Miss      21.860000
Mr        32.739609
Mrs       35.981818
Other     45.888889
Name: Age, dtype: float64
## 使用每组的均值来进行填充
data.loc[(data.Age.isnull())&(data.Initial=='Mr'),'Age']=33
data.loc[(data.Age.isnull())&(data.Initial=='Mrs'),'Age']=36
data.loc[(data.Age.isnull())&(data.Initial=='Master'),'Age']=5
data.loc[(data.Age.isnull())&(data.Initial=='Miss'),'Age']=22
data.loc[(data.Age.isnull())&(data.Initial=='Other'),'Age']=46
data.Age.isnull().any()

False
f,ax=plt.subplots(1,2,figsize=(20,10))
data[data['Survived']==0].Age.plot.hist(ax=ax[0],bins=20,edgecolor='black',color='cyan')
ax[0].set_title('Survived= 0')
x1=list(range(0,85,5))
ax[0].set_xticks(x1)
data[data['Survived']==1].Age.plot.hist(ax=ax[1],color='hotpink',bins=20,edgecolor='black')
ax[1].set_title('Survived= 1')
x2=list(range(0,85,5))
ax[1].set_xticks(x2)
plt.show()

Aquí Insertar imagen Descripción
ver:

1) niños (de 5 años) sigue siendo rescatados encuentran muchas mujeres y niños (primera política).

2) se salvó El pasajero más antiguo (80 años).

3) El número de muertos es el más alto en el grupo de edad 30-40.

sns.factorplot('Pclass','Survived',col='Initial',data=data)
plt.show()

Aquí Insertar imagen Descripción

  • Embarked-> lugar de embarque
pd.crosstab([data.Embarked,data.Pclass],[data.Sex,data.Survived],margins=True).style.background_gradient(cmap='summer_r')

Aquí Insertar imagen Descripción

sns.factorplot('Embarked','Survived',data=data)
fig=plt.gcf()
fig.set_size_inches(5,3)
plt.show()

Aquí Insertar imagen Descripción
La más alta probabilidad de supervivencia puerto C es aproximadamente 0,55, y la tasa de supervivencia más baja de S.

f,ax=plt.subplots(2,2,figsize=(20,15))
sns.countplot('Embarked',data=data,ax=ax[0,0])
ax[0,0].set_title('No. Of Passengers Boarded')
sns.countplot('Embarked',hue='Sex',data=data,ax=ax[0,1])
ax[0,1].set_title('Male-Female Split for Embarked')
sns.countplot('Embarked',hue='Survived',data=data,ax=ax[1,0])
ax[1,0].set_title('Embarked vs Survived')
sns.countplot('Embarked',hue='Pclass',data=data,ax=ax[1,1])
ax[1,1].set_title('Embarked vs Pclass')
plt.subplots_adjust(wspace=0.2,hspace=0.5)
plt.show()

Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
ver:

1) La mayoría de la gente en el nivel de la cabina es de 3.

2) los pasajeros C se ve muy afortunados, algunos de ellos sobrevivieron.

3) S puerto de los ricos hallazgo muchos. La posibilidad de supervivencia es aún muy baja.

4) Q puerto de casi el 95% de los pasajeros son pobres.

sns.factorplot('Pclass','Survived',hue='Sex',col='Embarked',data=data)
plt.show()

Aquí Insertar imagen Descripción

ver:

1) la probabilidad de supervivencia es de casi 1 mujer en pclass1 y pclass2 en.

Los pasajeros 2) pclass3 de las tasas de supervivencia de ambos sexos son muy bajos.

3) puerto Q es desafortunado porque hay 3 cabina de pasajeros y otro.

Port también presente en los valores que faltan, y aquí utilizo el modo de llenar, porque la mayoría de las personas a bordo S ah

data['Embarked'].fillna('S',inplace=True)
data.Embarked.isnull().any()

False
  • "Cantidad hermanos - sibsip

Esta característica representa una persona está sola o junto con su familia.

pd.crosstab([data.SibSp],data.Survived).style.background_gradient(cmap='summer_r')

Aquí Insertar imagen Descripción

f,ax=plt.subplots(1,2,figsize=(20,8))
sns.barplot('SibSp','Survived',data=data,ax=ax[0])
ax[0].set_title('SibSp vs Survived')
sns.factorplot('SibSp','Survived',data=data,ax=ax[1])
ax[1].set_title('SibSp vs Survived')
plt.close(2)
plt.show()

Aquí Insertar imagen Descripción

pd.crosstab(data.SibSp,data.Pclass).style.background_gradient(cmap='summer_r')

Aquí Insertar imagen Descripción

ver:

barplot y factorplot que si el pasajero no está a bordo de los hermanos y hermanas solitarias, que tenía la tasa de supervivencia del 34,5%. Si el aumento en el número de hermanos y hermanas, la cifra se reduce sustancialmente. Esto tiene sentido. En otras palabras, si tengo una familia en el barco, voy a tratar de salvarlos, en lugar de salvarse a sí mismo. Sorprendentemente, sin embargo, la tasa de supervivencia de la familia 5-8 miembros fue del 0%. La razón puede ser que la cabina en pClass = 3?

  • "Cantidad padres e hijos - Pärch
pd.crosstab(data.Parch,data.Pclass).style.background_gradient(cmap='summer_r')

Aquí Insertar imagen Descripción

f,ax=plt.subplots(1,2,figsize=(20,8))
sns.barplot('Parch','Survived',data=data,ax=ax[0])
ax[0].set_title('Parch vs Survived')
sns.factorplot('Parch','Survived',data=data,ax=ax[1])
ax[1].set_title('Parch vs Survived')
plt.close(2)
plt.show()

Aquí Insertar imagen Descripción

ver:

Los resultados presentados aquí son también muy similares. Con los padres pasajeros tienen una probabilidad mayor de supervivencia. Sin embargo, se disminuye con números crecientes.

1-3 posibilidad de supervivencia en el número de personas a bordo en el hogar Los padres es buena. Solo resultó fatal cuando el barco tiene cuatro padres, disminuye la posibilidad de supervivencia.

  • Fare-> precios de los billetes
f,ax=plt.subplots(1,3,figsize=(20,8))
sns.distplot(data[data['Pclass']==1].Fare,ax=ax[0])
ax[0].set_title('Fares in Pclass 1')
sns.distplot(data[data['Pclass']==2].Fare,ax=ax[1])
ax[1].set_title('Fares in Pclass 2')
sns.distplot(data[data['Pclass']==3].Fare,ax=ax[2])
ax[2].set_title('Fares in Pclass 3')
plt.show()

Aquí Insertar imagen Descripción

Vistazo a todas las características Resumen:
Género: En comparación con los hombres, alta probabilidad de supervivencia de las mujeres.

PClass: Sí, los pasajeros de primera clase para darle una mejor oportunidad de supervivencia de una tendencia clara. Para pclass3 tasa de supervivencia muy baja. Para las mujeres, las posibilidades de supervivencia de casi pclass1 sí.

Edad: 5-10 años de edad es menor que la alta tasa de supervivencia. Los pasajeros de edades comprendidas entre 15-35 años de edad murieron mucho.

Puerto: posiciones hay diferencias, la tasa de mortalidad es también grande!

Familia: Hay hermanos y hermanas 1-2, 1-3 pantalla del cónyuge o padre en lugar de solo o tener un gran viaje de la familia, usted tiene una probabilidad mayor de supervivencia.

  • En el que la correlación entre

FIG Correlaciones de calor

Lo primero a destacar es que sólo las características numéricas se comparan

La correlación positiva: Si el aumento característico incluye un resultado en un incremento de b, entonces se correlacionaron positivamente. El valor 1 indica una correlación positiva perfecta.

Correlación negativa: si un aumento característico resulta en una disminución de la b característica, la correlación negativa. El valor -1 indica una correlación negativa perfecta.

sns.heatmap(data.corr(),annot=True,cmap='rainbow',linewidths=0.2) #data.corr()-->correlation matrix
fig=plt.gcf()
fig.set_size_inches(10,8)
plt.show()

Aquí Insertar imagen Descripción

Ahora digamos que dos propiedades están altamente correlacionados o perfectamente, por lo que un aumento conduce a otro aumento. Esto significa que dos características se contenían información altura similar, y la información con poco o ningún cambio. un rasgo para nosotros no tiene ningún valor!

Por lo que creo que debemos utilizar al mismo tiempo? . O formación en el modelo de producción, debemos tratar de reducir la redundancia, ya que reduce el tiempo de entrenamiento y una gran cantidad de ventajas.

Ahora, a partir de la tabla anterior, podemos ver que las características no se correlacionaron significativamente.

Publicados 116 artículos originales · ganado elogios 10 · vistas 1335

Supongo que te gusta

Origin blog.csdn.net/weixin_44727383/article/details/105052927
Recomendado
Clasificación