Por qué estudiar estadísticas: estadísticas desnudas

"Estadísticas desnudas", autor [América] Charles Wayland, publicado en 2013, Douban obtuvo 8,1 puntos, se puede utilizar como un buen libro para las estadísticas introductorias, los puntos de conocimiento son fáciles de entender, muy amigables con Xiaobai, Aquellos con experiencia estadística pueden sentir que hay menos productos secos. En general, vale la pena leerlo, el índice de recomendación es de 4 estrellas. Al final del artículo hay un gráfico de conocimientos sobre este libro .

imagen

1. Las estadísticas son el conocimiento más actual en la era de los macrodatos.

Se plantearon varias preguntas interesantes al comienzo del primer capítulo:

  • ¿Es el coeficiente de Gini el indicador más perfecto para medir la equidad de la distribución social? (Estadísticas descriptivas)

  • ¿Cómo sabe el sitio de videos el tipo de película que le gusta (relevancia)?

  • ¿Puede la oración realmente mejorar la recuperación posoperatoria del paciente (experimento controlado aleatorio)

  • ¿Qué causa que la incidencia del autismo siga aumentando (correlación)?

Detrás de estas preguntas hay un punto de conocimiento estadístico, creo que después de leer este libro, también puede obtener la respuesta.

2. Estadística descriptiva

El segundo capítulo en realidad responde a la pregunta del primer capítulo al principio:

¿Es el coeficiente de Gini el indicador más perfecto para medir la equidad de la distribución social?

Permítanme comenzar con la respuesta: No. Las estadísticas rara vez proporcionan el único método correcto. El coeficiente de Gini es un indicador de datos descriptivos que condensa una serie de datos complejos en una sola herramienta digital. No es el indicador perfecto para medir la equidad de la distribución social, pero lo hace Proporciona información sobre la equidad de la distribución social de una manera conveniente y fácil de entender. Al mismo tiempo, debe tenerse en cuenta que cualquier dato simplificado corre el riesgo de ser abusado. Ésta es la ventaja y la desventaja de las estadísticas descriptivas.

Hablando de estadística descriptiva, es inevitable mencionar el promedio, la mediana, el cuantil, la desviación estándar y la varianza Este capítulo tiene una descripción detallada y una comprensión profunda de estos conceptos.

Al comienzo de este capítulo, también se planteó un problema de matemáticas de la escuela primaria:

Un vestido que siempre has querido comprar se vende a 4.999 yuanes en el centro comercial. El precio se reduce en un 25% y luego se aumenta en un 25%. ¿Cuál es el precio final?

La respuesta es 93,75, ¿tienes razón? Para los zapatos de los niños que olvidan cómo calcular, puede Baidu Esta es una cuestión muy simple de cálculo de porcentaje y tasa de crecimiento.

3. Las estadísticas mentirán

P3: En 1950, el salario promedio por hora de las personas era de $ 1. En 2012, el salario promedio por hora de las personas era de $ 5. ¿Cree que nuestros salarios han aumentado?


image.pngEsta pregunta se plantea primero. Respecto al hecho de que las estadísticas mienten, creo que todos lo sienten profundamente. Los datos son verdaderos. No mienten. Es solo que el ángulo de interpretación y la unidad de análisis son diferentes . Todavía hay que mencionar un mal ejemplo, es decir, la mediana y la media. La media de (3, 4, 5, 6, 102) es 24 y la mediana es 5. La diferencia entre estos dos números Todavía es muy grande, por lo que el salario es medio alto. Es necesario distinguir entre las unidades de análisis, los objetos descritos y si existen diferencias en quién o qué entre diferentes poblaciones. El juicio es más importante que las matemáticas


Volviendo a la pregunta del principio, ¿ha aumentado el nivel salarial? De hecho, todo el mundo sabe que no se puede simplemente prestar atención al aumento de números, porque hay inflación, hay que convertir los dos valores en la misma unidad, como todos convertidos a dólares de 2011 y luego compararlos.

Cuatro, correlación y coeficiente de correlación

Este capítulo responde a la pregunta planteada en el Capítulo 1:

¿Cómo sabe un sitio de videos el tipo de película que le gusta?

La respuesta es correlación. Un indicador para describir la correlación es el coeficiente de correlación . No entraré en demasiados detalles sobre cómo el coeficiente de correlación explica la correlación. Con respecto a la correlación, lo más importante que debe saber es que la correlación no es igual a la causalidad . Las calificaciones de los estudiantes están correlacionadas positivamente con la cantidad de televisores en casa. No significa que mientras los padres compren 5 televisores más, las calificaciones de los niños puedan mejorar.

Cinco, probabilidad y valor esperado

P5: Comprar boletos de lotería de asistencia social, ir a casinos a apostar, invertir en acciones o futuros, lo que hace que sea más probable que esté en la lista de ricos de "Forbes".

Ésta es una cuestión de probabilidad. La probabilidad es el estudio de eventos y resultados inciertos. La probabilidad no nos dice claramente qué sucederá, pero podemos saber qué puede suceder y qué es poco probable que suceda calculando la probabilidad.

El valor esperado es la suma de todos los eventos, no solo un número, sino también un indicador de nuestro juicio.

La ley de los números grandes, a medida que aumenta el número de ensayos, el resultado promedio se acercará más al valor esperado. Por ejemplo, el valor de retorno esperado de un billete de lotería de 1 yuan es de 0,56 yuanes. A largo plazo, esta es una mala inversión por debajo del costo, pero tuve la suerte de ganar 5 yuanes hoy, pero de acuerdo con la ley de los grandes números, si lo compro durante muchos años Bajar es sin duda una pérdida de dinero.

imagen

6. La paradoja de Monty Hall

P6: Detrás de la puerta 3 abierta por el anfitrión hay una oveja. En las puertas restantes 1 y 2, debe haber un automóvil detrás de la puerta. ¿Cómo eliges ganar el premio mayor?

Este es el famoso problema de probabilidad de los autos, cabras y puertas. Se llama la paradoja de Monty Hall. En un programa de variedades, hay 3 puertas, una detrás de la puerta es un automóvil y la otra es una oveja. Los participantes eligen una. Puerta, el anfitrión abrirá una de las dos puertas restantes con una oveja y luego preguntará a los concursantes si deben cambiar la elección original.

Esto sigue siendo un problema de probabilidad, se sabe por cálculo que la probabilidad de cambiar la elección inicial será mayor. Esta pregunta también lleva a muchas explicaciones y respuestas diferentes, y los amigos interesados ​​pueden encontrarla por sí mismos.

Siete, el incidente del cisne negro

P7: ¿Cómo se convirtió el riesgo de pequeña probabilidad del 1% en el cisne negro que derrotó a Wall Street en 2008 y destruyó el sistema financiero global?

La raíz de este problema es hablar del modelo de valor en riesgo. En pocas palabras, se trata de utilizar un indicador simple para indicar la pérdida máxima que una inversión puede ocasionar a la empresa en un período determinado. La probabilidad de este resultado es del 1%, lo que significa Esta inversión es segura en el 99% de los casos, pero es el 1% restante el que realmente arruinó las cosas.

Algunos malentendidos probables, si está interesado, puede leer el libro en sí:

  • Dé por sentado que no hay conexión entre eventos

  • No saber nada sobre la independencia estadística de dos eventos: como la falacia del jugador

  • La ocurrencia de grupos de casos: puede ser solo una coincidencia

  • Falacia del fiscal

  • Media de regresión

  • Discriminación estadística

Todos los capítulos 5, 6 y 7 tratan sobre la probabilidad.Aunque la probabilidad tiene muchas ventajas de simplicidad y precisión, no puede reemplazar a los seres humanos como sujeto de los cálculos y como motivo de los mismos.

8. Datos y sesgo

Si desea reflejar con precisión las características de toda la población, el muestreo es sin duda la forma más conveniente y justa. Sin embargo, si existe un problema con la composición de la población en sí, es decir, el llamado "sesgo", no importa cuán grande sea el tamaño de la muestra, esta situación de "sesgo" no se puede cambiar. . Esto nos dice que si hay un problema con los datos en sí, ningún análisis riguroso es inútil.

Aquí hay algunos ejemplos en los que los métodos estadísticos son correctos y los datos en sí mismos son problemáticos:
ü Sesgo selectivo
ü Sesgo de publicación
ü Sesgo de memoria
ü Sesgo de superviviente
ü Sesgo de usuario saludable

imagen

Nueve, el teorema del límite central

P9: Un autobús averiado lleno de pasajeros obesos está estacionado en la carretera cerca de su casa. Puede inferir que el maratón en su ciudad de destino sigue siendo la Sala de Exposiciones del Festival Nacional de la Salchicha.

Esta pregunta parece poder sacar una conclusión de un vistazo. Debe ser la Sala de Exposiciones del Festival Nacional de la Salchicha. Esta habilidad general es a menudo el Teorema del Límite Central. La esencia del Teorema del Límite Central es el muestreo correcto de una muestra grande y el grupo que representa. Hay relaciones similares. Es la lógica del teorema del límite central la que nos dice que la mayoría de los corredores de maratón son relativamente delgados, por lo que la probabilidad de que tantos atletas "de peso pesado" sean colocados en un automóvil es muy baja, por lo que se determina el propósito de este automóvil. El suelo es la sala de exposiciones del festival de las salchichas.

10. Inferencia estadística y prueba de hipótesis

P10: Filtrado de correo no deseado, detección de cáncer, caza de terroristas, ¿qué cosas no podemos tolerar que salgan mal y a qué podemos hacer la vista gorda?

Las estadísticas no pueden probar nada de manera concluyente, pero primero puede descubrir algunas leyes y resultados, y luego usar la probabilidad para probar las razones más probables detrás de estos resultados, y la herramienta más comúnmente utilizada en este proceso es la prueba de hipótesis.

La idea de la prueba de hipótesis es el método de contradicción de pequeña probabilidad , que se puede entender de la siguiente manera: primero se asume una conclusión (hipótesis nula) y luego se respalda o refuta mediante análisis estadístico.

Regala una castaña:

  • Hipótesis nula: un nuevo fármaco no es más eficaz que un placebo para prevenir la malaria

  • Hipótesis alternativa: el nuevo fármaco puede prevenir la malaria

Proceso de inferencia estadística: La incidencia de malaria en el grupo que toma el nuevo fármaco es mucho menor que en el grupo control que toma el placebo. Si el nuevo fármaco no tiene un efecto curativo, la probabilidad de este resultado es muy baja. Por lo tanto, se rechaza la hipótesis nula.

Volviendo a la pregunta de Q10, hay errores de tipo I y errores de tipo II en la prueba de hipótesis. Los tres casos de este problema son un compromiso entre estos dos errores. Específicamente, puede leer el libro con atención ~

11. Encuestas de opinión pública y margen de error

P11: Los resultados de la encuesta muestran que el 89% de los estadounidenses no cree que el gobierno hará lo correcto y el 46% aprueba el desempeño laboral de Obama. ¿Puede este resultado representar el verdadero pensamiento estadounidense?

Las encuestas de opinión (sondeos) se basan en el teorema del límite central . Por supuesto, también puede calcular la probabilidad de que los resultados de la muestra se desvíen del total en un área grande. Este es el margen de error. Existe una probabilidad del 95% de que los resultados de la encuesta fluctúen dentro del 3% de la situación real.

Varios puntos a considerar al realizar una encuesta:

  • ¿Esta muestra refleja correctamente las opiniones reales del grupo destinatario? Para no causar sesgos selectivos

  • ¿El establecimiento de preguntas durante la entrevista puede resultar en información útil para el tema de investigación?

  • ¿Es lo que el entrevistado dijo que debe ser cierto?

12. Análisis de regresión y relación lineal

P12: ¿Qué tipo de presión laboral cree que es más probable que cause una muerte súbita en el lugar de trabajo? ¿Es un trabajo que carece de control y voz o es un trabajo con gran poder y responsabilidad?

De hecho, la tasa de mortalidad de los primeros es mayor, pero ¿cómo surgió esta conclusión? ¡análisis de regresión! Bajo la premisa de controlar por otros factores, cuantificando la relación entre una variable específica y un resultado específico, volver a la pregunta en sí es analizar el daño del trabajo de bajo nivel a la salud de una determinada población. La poderosa capacidad del análisis de regresión radica en aislar las asociaciones estadísticas que nos interesan.

Nos enfocamos en el análisis de regresión para enfocarnos en dos puntos, la correlación entre variables y si los resultados son estadísticamente significativos. Finalmente, el análisis de regresión necesita encontrar la relación que mejor se ajuste entre dos variables , como la relación entre la altura y el peso. Aunque no es absoluta, las personas más altas generalmente pesan más. ¿Cómo determinar la relación "mejor" adecuada? La respuesta es el método de mínimos cuadrados. No se ampliará aquí. Puedes leer el libro o Baidu por ti mismo.

imagen
De hecho, la dificultad del análisis de regresión no es la tecnología en sí, sino qué variables se utilizan y cómo hacer el mejor uso de estas variables. Este es también el tema central de este capítulo.


13. Errores de devolución fatal

El análisis de regresión proporciona respuestas precisas a preguntas complejas, pero estas respuestas no son necesariamente precisas. Este capítulo trata sobre a qué prestar atención en la aplicación del análisis de regresión. Hay varios errores comunes:

  • Utilice ecuaciones de regresión para analizar relaciones no lineales. Solo cuando la relación entre las variables es lineal, el análisis de regresión puede resultar útil.

  • La correlación no es lo mismo que la causalidad.

  • Inversión de causa y efecto. Asegúrese de que la variable independiente afecte a la variable dependiente, no al revés.

  • Desviación de omisión variable. Si jugar al golf es propenso a sufrir enfermedades cardíacas, esta conclusión es que se omite la variable de edad, porque puede no ser que el golf sea propenso a las enfermedades cardíacas, sino que las personas mayores son propensas a las enfermedades cardíacas.

  • Variables independientes altamente correlacionadas (colinealidad múltiple). Si dos variables independientes están altamente correlacionadas, entonces es imposible distinguir la verdadera relación entre ellas y la variable dependiente.

  • Haga inferencias a partir de los datos. La ecuación de regresión utilizada para explicar esta muestra no se aplica necesariamente a otra muestra.

  • Minería de datos (demasiadas variables).

14. Evaluación de proyectos y "contrarealidad"

P14: Después de ingresar a la sociedad, los graduados de la Universidad de Harvard suelen tener ingresos más altos que los de los graduados universitarios ordinarios. ¿Es la ventaja de la escuela o son sobresalientes?

Esta pregunta debe explicarse mediante un experimento controlado no equivalente. "En comparación con el nombre de la escuela en el certificado de graduación, la comprensión correcta de los intereses, ambiciones y habilidades de una persona puede mejorar la vida de una persona", creo que esta es la mejor respuesta a esta pregunta.

Lo anterior son mis pensamientos después de leer este libro, y también hice un gráfico de conocimiento, de la siguiente manera (si no ve claramente, puede agregar WeChat data_cola para pedirme la imagen original):

imagen


Supongo que te gusta

Origin blog.51cto.com/15064638/2598067
Recomendado
Clasificación