Análisis de datos del Titanic

Este es un caso muy clásico, muchos bloggers han escrito, sí, lo es: el análisis de la tasa de supervivencia del Titanic, es una pregunta en kaggle, a través del análisis de información y modelado de pasajeros a bordo, predecir qué pasajeros obtendrán. Sobrevivió.

Tomemos este conjunto de datos para hacer un análisis simple de manera muy cruda.

Utilice la herramienta: Excel
(sí, es así de simple y grosero)

La fuente de datos se puede obtener respuesta entre bastidores: Titanic

1. Propósito claro

En 1912, el Titanic se estrelló contra un iceberg y se hundió. Murieron 1502 de los 2224 pasajeros y la tripulación a bordo. ¿Los supervivientes no tuvieron suerte o siguieron un patrón determinado? Esto es algo que nos preocupa más, así que tenemos que hacernos preguntas:

¿Esas personas tienen más probabilidades de sobrevivir?

En segundo lugar, comprenda los datos. El conjunto de datos tiene los siguientes campos en total. Nombre, sexo, cabina, embarcado y boleto son tipos de cadena. Aunque pclass y survived son tipos numéricos, su significado son etiquetas. Comenzamos con la clase, el pasajero y el boleto. Y la dimensión geográfica a analizar.

imagen

2. Procesamiento de datos

A través de la inspección, descubrimos que faltaban los campos Edad, tarifa, embarcado y camarote. Veámoslos uno por uno a continuación.

1. Procesamiento del valor faltante de edad

Hay 263 datos que están vacíos en la columna de edad, y la tasa faltante es del 20%. Todos ellos se pueden completar como la media o la moda. También se puede analizar más a fondo y encontrar que los datos de tercera clase con edad faltante representan el mayor número de valores faltantes. La proporción de hombres que no sobrevivieron en la cabina de tercera clase es la mayor, por lo que también se puede completar con la edad promedio de la cabina de tercera clase.image.png

Para mantener la autenticidad de los datos aquí, no se realiza ningún llenado.

2. Procesamiento del valor faltante de la tarifa

El filtro encontró que a la tarifa (tarifa) le faltaba solo un valor. Lo encontramos y descubrimos que se puede completar con el mismo tipo de media.image.png


Por lo tanto, filtramos la tarifa promedio 7 de hombres de tercera clase, mayores de 60 años cuyo puerto de embarque es S para completar este valor faltante.image.png

3. Procesamiento de valor faltante embarcado

También faltan dos valores en el campo del puerto de embarque.

image.pngSe observa además que estos dos pasajeros viajan solos y no tienen familia (de las columnas sibsp y parch son ambas 0), continúan con la idea de procesar el valor faltante de la tarifa y buscan el mismo tipo para completar. Para el primer pasajero, entre las mujeres de 35 a 40 años en la primera clase, se completa el puerto con más valor y el resultado es S.image.png

De la misma manera, para el segundo pasajero, se filtran las mujeres de primera clase de 60 a 65 años con más valores de desembarque en puerto, y el resultado también es S.image.png

4. Procesamiento de valor perdido de cabina

Para el campo de cabina (cabina), los valores faltantes alcanzaron el 77%, hay demasiados valores faltantes, no se realiza ningún procesamiento de llenado, simplemente guárdelos o elimínelos, mantenlos aquí.

Tres, análisis de datos

1. Dimensión de clase

pclass
analiza el espacio y la situación de supervivencia, inserta la tabla dinámicaimage.png


Entre los sobrevivientes, la primera clase representó el 40%.image.png

Al hacer un gráfico de columnas apiladas porcentuales para la supervivencia y muerte de cada cabaña, puede ver que los sobrevivientes de primera clase representaron la mayor proporción, alcanzando el 61.92%, y los sobrevivientes de tercera clase representaron la menor, solo el 25.33%, por lo que la sentencia sigue siendo la misma. Como dice el viejo refrán, aunque el dinero no es una panacea, no hay dinero @ #% & ^…image.png

La perspectiva
de Carbin sobre carbin (número de cabina) muestra que hay 295 valores únicos, lo que básicamente significa que solo una persona vive en una cabina.image.png


Pero también encontré que hay una cabina correspondiente a más de 2 personas. Además, llevé las cabinas y las comparé. Se encontró que el valor de la cabina de tercera clase era muy pequeño, lo que indica que la mayoría de los valores de carbin faltantes faltaban en la cabina de tercera clase, es decir, de tercera clase ¿La gente de la cabaña no tiene cabaña? Tienda Chase? Esto necesita ser verificado más a fondo.image.png

Además, se encuentra que las cabinas de tercera clase tienen números de cabina que comienzan con E / F / G, mientras que las cabinas de primera clase son más A / B / C. Se supone que los números de cabina están dispuestos en orden alfabético ascendente a medida que la cabina disminuye.image.png

2. Dimensión de pasajeros

nombre
nombre nombre aparece sin información valiosa, pero puede reflexionar más es, de hecho, corresponde al nombre del título, como el señor hombre casado, señora casada señora, etc., pero aquí en el primero eliminado.

el sexo
analiza el género y la supervivenciaimage.png


Las mujeres representaron el 67,8% de los supervivientes, mucho más que el 32,2% de los hombres.image.png

El número de mujeres sobrevivientes representó el 72,75% del número total de mujeres, mucho mayor que el número de hombres sobrevivientes que representaron el 19,10% del número total de hombres.image.png
image.png

Género y cabaña
Por cierto, puedes echar un vistazo a la relación entre cabaña y género. Debido a que la base de la población masculina es grande, no importa qué cabaña, hay más hombres que mujeres. De manera similar, cada cabaña tiene el mayor número de mujeres rescatadas.image.png


Sin embargo, la tasa de supervivencia de las mujeres de primera clase es del 97%, mucho más alta que las otras dos cabañas, y la tasa de supervivencia de las mujeres de tercera clase es solo del 49%.image.png

la edad
analiza la edad y la supervivencia. Debido a que falta la edad, solo se analizan aquellos con valores numéricos.

Primero, haga una estadística descriptiva simple para la edad, use la función [Estadísticas descriptivas] en [Análisis de datos], puede ver que la edad máxima es 80 años, la mínima es 0.17 años, el promedio es 29.88 años y la edad mediana es 28 años, la moda tiene 24 años.image.png


Además, podemos observar la distribución por edades, hacer un histograma y hacer un grupo de 5 años, se puede observar que la edad de los pasajeros se concentra principalmente en los 15-30 años, y la mayoría de los jóvenes son los 20-25 años.image.png

Después de comprender la distribución aproximada de la edad, debemos observar la supervivencia de grupos específicos de personas. Dividimos la edad en:

  • Juvenil (0 ~ 15 años)

  • Joven (15 ~ 40 años)

  • Edad media (41 ~ 65 años)

  • Ancianos (mayores de 66 años)

Primero haga una tabla de agrupación, use vlookup fuzzy matching para lograr la agrupaciónimage.png


Cree una nueva columna auxiliar para la agrupación por edades junto a la edad e ingrese la fórmula

=VLOOKUP(E2,Sheet2!$B$18:$C$21,2,1)

Sheet2!18:21 Esta área es el área de agrupación preestablecida en la figura anterior.

imagen
La perspectiva del agrupamiento por edad y la
imagen
supervivencia muestra que los jóvenes y los adolescentes representan la mayor proporción de sobrevivientes, mientras que los ancianos representan la proporción más pequeña.
imagen
Se elaboró ​​el gráfico de columnas porcentuales apiladas de muerte y supervivencia de cada grupo de edad, y el resultado fue que la proporción de adolescentes rescatados fue la más alta.
imagen

sibsp
analiza el campo sibsp (el número de hermanos / cónyuges) Después de la perspectiva, la etiqueta es 0, lo que significa que las personas sin familiares son la mayoría de los pasajeros en el barco.

imagen
También debido a la gran base, entre los supervivientes, 0 parientes representaron hasta el 61,8%.image.png

Hacer un gráfico de columnas apiladas porcentuales para cada etiqueta es un resultado más significativo Se puede ver que la proporción de personas rescatadas con 1 familiar es la más alta.image.png

Parch
analiza el campo de pergamino (número de padres / hijos). También se observa que el número de personas sin padres / hijos es el 76% del total de personas a bordo. Asimismo, este grupo de personas tiene el mayor número de rescatados.

image.pngimage.png
Haciendo un gráfico de columnas apiladas porcentuales, podemos ver que la proporción de personas con 3 padres / hijos rescatados es la más grande, alcanzando el 62,5%.image.png

3. Dimensiones del billete de ferry

fare
对Fare(票价)字段分析,首先比较关注的是票价和舱位是否存在相关性,正常的逻辑是舱位越高,票价越高,这里算出pclass和fare的相关系数是-0.56,还是比较相关。

image.png还记得上面我们用vlookup的模糊匹配分组,还可以直接用数据透视表分组。透视以后组合,选择50步长一组,可以再对票价和舱位透视看看,看到100以上的高票价全都是头等舱,二等舱和三等舱的票价大部分为0~50。
image.pngimage.png

性别&票价
女性的票价均价要高于男性image.png

性别&舱位&票价
头等舱的均价远高于其他两个舱,每个舱女性的均价都要高于男性,其中票价的最大值512出自头等舱的女性。另外一个比较有意思的现象是,票价为0的居然都是男性。image.png

都写到这儿了,可以再引申出一个问题,票价到底和什么有关?性别?登陆港口?舱位?客舱?有兴趣的小伙伴可以自己再深入探讨一下,这里我们就不探索下去了。

接下来,50一组看一下fare的分布情况,可以看到票价为0~50的占了船上乘客的82%。image.png


同时存活数量最多的还是0~50票价的人群,因为它的基数本身就很大。image.png

从各票价分组的角度来看,做百分比堆积柱形图,可以看到,500-550票价的人群存活比例为100%,而0-50票价的存活比例只有32%。image.png

ticket
ticket字段是船票信息/代号,没有特别大的分析意义,这里也就直接删除了。

4、地域维度

embarked
对embarked(登船港口)字段分析,透视后发现S港口登船的人数最多,从堆积柱形图中可以看到,C扣登船的生成比例最高。

imagen
imagen

四、生还率同什么有关

生还率同什么相关?这个是我们最关心的,这个问题其实就是survived字段同其他字段的相关系数。

sex列是字符型数据,要映射成数值,我们添加一列命名为性别的辅助列,male为1,female为0.

imagen
Agregue otra columna del campo f_num, que es la suma de sibsp y parch, lo que significa el número de miembros de la familia.
imagen
El campo embarcado se descompone en 3 columnas auxiliares, puerto-S, puerto-C y puerto-Q. Ingrese la fórmula al mismo tiempo:

=IF(N2="S",1,0)

Si el campo embarcado es S, el puerto S se enumera como 1, el puerto C, el puerto Q se enumeran como 0, y así sucesivamente.

imagen
De la misma manera, haz lo mismo para la clase pclass
imagen
. Usa la función [Coeficiente de correlación] en [Análisis de datos], puedes ver el coeficiente de correlación de cada campo en
imagen
orden descendente, puedes ver con qué está relacionada la tasa de natalidad,
imagen
así que vuelve con nosotros Pregunta inicial:

¿Cuáles tienen más probabilidades de sobrevivir?

En conclusión:

  • Aunque la tercera clase tiene el mayor número de personas (54%), la primera clase tiene la mayor proporción de supervivientes (62%)

  • Aunque hay más hombres (64%) que mujeres, la tasa de supervivencia de las mujeres (72%) es mucho mayor que la de los hombres (19%)

  • La tasa de supervivencia de las mujeres de primera clase (97%) es mucho más alta que la de las mujeres de tercera clase (49%)

  • El número de jóvenes de 15 a 40 años es el mayor (53%), y la tasa de supervivencia es más alta entre los de 0 a 15 años (56%)

  • El número de familiares con 0 es el mayor (68%) y el número de familiares con 1 es el mayor (51%)

  • El número de padres / hijos con 0 es el mayor (76%), y el número de padres / hijos con 3 es el más alto (63%)

  • La cantidad de personas con tarifas en el rango de 0-50 es la más grande (82%), pero la tasa de supervivencia para tarifas en el rango de 500-550 es del 100%.

  • El puerto S tiene el mayor número de personas que abordan (70%), pero el puerto C tiene la tasa de supervivencia más alta (56%)


Supongo que te gusta

Origin blog.51cto.com/15064638/2598040
Recomendado
Clasificación