Pourquoi étudier les statistiques: les statistiques nues

"Naked Statistics", auteur [Amérique] Charles Wayland, publié en 2013, Douban marque 8,1 points, peut être utilisé comme un bon livre pour les statistiques d'introduction, les points de connaissance sont faciles à comprendre, très sympathique avec Xiaobai, Ceux qui ont une expertise statistique peuvent penser qu'il y a moins de produits secs. En général, cela vaut la peine d'être lu, l'indice de recommandation est de 4 étoiles. À la fin de l'article se trouve un graphique de connaissances sur ce livre .

image

1. Les statistiques sont les connaissances les plus récentes à l'ère des mégadonnées

Plusieurs questions intéressantes ont été soulevées au début du premier chapitre:

  • Le coefficient de Gini est-il l'indicateur le plus parfait pour mesurer l'équité de la distribution sociale? (Statistiques descriptives)

  • Comment le site vidéo connaît-il le type de film que vous aimez (pertinence)

  • La prière peut-elle vraiment améliorer la récupération postopératoire du patient (expérience contrôlée randomisée)

  • Qu'est-ce qui fait que l'incidence de l'autisme continue d'augmenter (corrélation)

Derrière ces questions se cache un point de connaissance statistique, je pense qu'après avoir lu ce livre, vous pouvez également obtenir la réponse.

2. Statistiques descriptives

Le deuxième chapitre répond en fait à la question du premier chapitre au début:

Le coefficient de Gini est-il l'indicateur le plus parfait pour mesurer l'équité de la distribution sociale?

Permettez-moi de commencer par la réponse: non. Les statistiques fournissent rarement la seule méthode correcte. Le coefficient de Gini est un indicateur de données descriptif qui condense une série de données complexes en un seul outil numérique. Ce n'est pas l'indicateur parfait pour mesurer l'équité de la distribution sociale, mais il le fait Il fournit des informations sur l'équité de la répartition sociale d'une manière pratique et facile à comprendre. En même temps, il convient de noter que toute donnée simplifiée risque de faire l'objet d'abus. C'est l'avantage et l'inconvénient des statistiques descriptives.

En parlant de statistiques descriptives, il est inévitable de mentionner la moyenne, la médiane, le quantile, l'écart type et la variance.Ce chapitre présente une description détaillée et une compréhension approfondie de ces concepts.

Au début de ce chapitre, un problème de mathématiques à l'école élémentaire a également été soulevé:

Une robe que vous avez toujours voulu acheter est vendue à 4 999 yuans dans le centre commercial. Le prix est réduit de 25% puis augmenté de 25%. Quel est le prix final?

La réponse est 93,75, avez-vous raison? Pour les chaussures pour enfants qui oublient comment calculer, vous pouvez le Baidu C'est une question très simple de calcul du pourcentage et du taux de croissance.

3. Les statistiques mentiront

Q3: En 1950, le salaire horaire moyen des gens était de 1 $. En 2012, le salaire horaire moyen des gens était de 5 $. Pensez-vous que nos salaires ont augmenté?


image.pngCette question se pose en premier: quant au fait que les statistiques mentiront, je crois que tout le monde ressent profondément. Les données sont vraies. Elles ne mentent pas. C'est juste que l'angle d'interprétation et l'unité d'analyse sont différents . Un mauvais exemple doit encore être mentionné, à savoir la médiane et la moyenne. La moyenne de (3,4,5,6,102) est de 24 et la médiane de 5. La différence entre ces deux nombres Il est encore très important, c'est pourquoi le salaire est moyennement élevé. Il est nécessaire de distinguer les unités d'analyse, les objets décrits et s'il existe des différences de qui ou de quoi entre les différentes populations. Le jugement est plus important que les mathématiques


Pour revenir à la question du début, le niveau des salaires a-t-il augmenté? En fait, tout le monde sait qu'on ne peut pas se contenter de faire attention à l'augmentation des nombres, car il y a de l'inflation, il faut convertir les deux valeurs dans la même unité, comme toutes converties en dollars de 2011 et ensuite les comparer.

Quatre, corrélation et coefficient de corrélation

Ce chapitre répond à la question posée au chapitre 1:

Comment un site vidéo connaît-il le type de film que vous aimez

La réponse est la corrélation. Un indicateur pour décrire la corrélation est le coefficient de corrélation . Je n'entrerai pas dans les détails sur la façon dont le coefficient de corrélation explique la corrélation. En ce qui concerne la corrélation, la chose la plus importante que vous devez savoir est que la corrélation n'est pas égale à la causalité . Les notes des élèves sont en corrélation positive avec le nombre de téléviseurs à la maison. Cela ne signifie pas que tant que les parents achètent 5 téléviseurs supplémentaires, les notes des enfants peuvent s’améliorer.

Cinq, probabilité et valeur attendue

Q5: Acheter des billets de loterie sociale, aller dans les casinos pour jouer, investir dans des actions ou des contrats à terme, ce qui vous rend plus susceptible d'être sur la liste riche de «Forbes».

C'est une question de probabilité. La probabilité est l'étude d'événements et de résultats incertains. La probabilité ne nous dit pas clairement ce qui va se passer, mais nous pouvons savoir ce qui peut arriver et ce qui est peu probable en calculant la probabilité.

La valeur attendue est la somme de tous les événements, non seulement un nombre, mais aussi un indicateur de notre jugement.

La loi des grands nombres, à mesure que le nombre d'essais augmente, le résultat moyen se rapprochera de la valeur attendue. Par exemple, la valeur de retour attendue d'un billet de loterie de 1 yuan est de 0,56 yuan. À long terme, c'est un mauvais investissement en dessous du coût, mais j'ai eu la chance de gagner 5 yuans aujourd'hui, mais selon la loi des grands nombres, si je l'achète pendant de nombreuses années Descendre est sans aucun doute une question de perte d'argent.

image

6. Paradoxe de Monty Hall

Q6: Derrière la porte 3 ouverte par l'hôte se trouve un mouton. Parmi les portes 1 et 2 restantes, il doit y avoir une voiture derrière la porte. Comment choisissez-vous de gagner le jackpot?

C'est le fameux problème de probabilité des voitures, des chèvres et des portes. Il s'appelle Monty Hall's Paradox. Dans une émission de variétés, il y a 3 portes, l'une derrière la porte est une voiture et l'autre est un mouton. Les participants en choisissent une. Porte, l'hôte ouvrira l'une des deux portes restantes avec un mouton, puis demandera aux candidats de changer le choix d'origine?

C'est encore un problème de probabilité, on sait par le calcul que la probabilité de changer le choix initial sera plus grande. Cette question a également conduit à de nombreuses explications et réponses différentes, et les amis intéressés peuvent la trouver par eux-mêmes.

Seven, l'incident du cygne noir

Q7: Comment le risque de faible probabilité de 1% est-il devenu le cygne noir qui a vaincu Wall Street en 2008 et détruit le système financier mondial?

La racine de ce problème est de parler du modèle de valeur à risque. En termes simples, il s'agit d'utiliser un indicateur simple pour indiquer la perte maximale qu'un investissement peut faire subir à l'entreprise au cours d'une période donnée. La probabilité de ce résultat est de 1%, ce qui signifie Cet investissement est sûr dans 99% des cas, mais ce sont les 1% restants qui ont vraiment gâché les choses.

Quelques malentendus de probabilité, si vous êtes intéressé, vous pouvez lire le livre lui-même:

  • Tenez pour acquis qu'il n'y a pas de lien entre les événements

  • Ne rien savoir de l'indépendance statistique de deux événements: comme l'erreur du joueur

  • L'apparition de groupes de cas: peut-être juste une coïncidence

  • L'erreur du procureur

  • Moyenne de régression

  • Discrimination statistique

Les chapitres 5, 6 et 7 traitent tous des probabilités. Bien que la probabilité présente de nombreux avantages de simplicité et de précision, elle ne peut pas remplacer l'être humain comme sujet de calcul et comme motif de calcul.

8. Données et biais

Si vous souhaitez refléter avec précision les caractéristiques de l'ensemble de la population, l' échantillonnage est sans aucun doute le moyen le plus pratique et le plus équitable. Cependant, s'il y a un problème avec la composition de la population elle-même, c'est-à-dire le «biais», quelle que soit la taille de l'échantillon, cette situation de «biais» ne peut pas être modifiée. . Cela nous indique que s'il y a un problème avec les données elles-mêmes, aucune analyse rigoureuse n'est vaine.

Voici quelques exemples où les méthodes statistiques sont correctes et les données elles-mêmes problématiques:
ü Biais sélectif
ü Biais de publication
ü Biais de mémoire
ü Biais de survivant
ü Biais de l'utilisateur sain

image

Neuf, le théorème de la limite centrale

Q9: Un bus en panne plein de passagers obèses est garé sur la route près de chez vous.Vous pouvez en déduire que le marathon dans sa ville de destination est toujours le National Sausage Festival Exhibition Hall.

Cette question semble pouvoir tirer une conclusion d'un coup d'œil. Il doit s'agir de la salle d'exposition du Festival national de la saucisse. Cette capacité générale est souvent le théorème central des limites. L'essence du théorème central des limites est l'échantillonnage correct d'un large échantillon et du groupe qu'il représente. Il existe des relations similaires. C'est la logique du théorème central de la limite qui nous dit que la plupart des marathoniens sont relativement maigres, donc la probabilité que tant d'athlètes «poids lourds» soient placés dans une voiture est très faible, donc le but de cette voiture est déterminé Le sol est la salle d'exposition du festival de la saucisse.

10. Inférence statistique et vérification des hypothèses

Q10: Filtrage du spam, dépistage du cancer, chasse au terrorisme, quelle chose nous ne pouvons pas tolérer de se tromper, et sur quelle chose nous pouvons fermer les yeux?

Les statistiques ne peuvent rien prouver de manière concluante, mais vous pouvez d'abord découvrir des lois et des résultats, puis utiliser la probabilité pour prouver les raisons les plus probables de ces résultats, et l'outil le plus couramment utilisé dans ce processus est le test d'hypothèse.

L'idée du test d'hypothèse est la méthode de contradiction à faible probabilité , qui peut être comprise comme suit: supposer d'abord une conclusion (hypothèse nulle), puis la soutenir ou la réfuter par une analyse statistique.

Donnez une châtaigne:

  • Hypothèse nulle: un nouveau médicament n'est pas plus efficace qu'un placebo pour prévenir le paludisme

  • Hypothèse alternative: le nouveau médicament peut prévenir le paludisme

Processus d'inférence statistique: l'incidence du paludisme dans le groupe prenant le nouveau médicament est bien inférieure à celle du groupe témoin prenant le placebo. Si le nouveau médicament n'a pas d'effet curatif, la probabilité de ce résultat est très faible. Par conséquent, l'hypothèse nulle est rejetée.

Pour en revenir à la question de Q10, il y a des erreurs de type I et des erreurs de type II dans le test d'hypothèse. Les trois cas de ce problème sont un compromis entre ces deux erreurs. Vous pouvez lire attentivement le livre ~

11. Sondages d'opinion publique et marge d'erreur

Q11: Les résultats du sondage montrent que 89% des Américains ne croient pas que le gouvernement fera ce qu'il faut et 46% approuvent la performance au travail d'Obama.Ce résultat peut-il représenter la vraie pensée américaine?

Les sondages d'opinion (sondages) sont basés sur le théorème central de la limite . Bien entendu, vous pouvez également calculer la probabilité que les résultats de l'échantillon s'écartent de l'ensemble sur une grande surface. Il s'agit de la marge d'erreur. Il existe une probabilité de 95% que les résultats du sondage fluctuent à moins de 3% de la situation réelle.

Plusieurs points à considérer lors de la réalisation d'un sondage:

  • Cet échantillon reflète-t-il correctement les véritables opinions du groupe cible? Pour ne pas provoquer de biais sélectif

  • La définition des questions pendant l'entretien peut-elle fournir des informations utiles sur le sujet de recherche?

  • Ce que l'interviewé a dit doit-il être vrai?

12. Analyse de régression et relation linéaire

Q12: Selon vous, quel type de pression au travail est le plus susceptible de causer une mort subite sur le lieu de travail? Est-ce un travail qui manque de contrôle et de voix ou est-ce un travail avec beaucoup de pouvoir et de responsabilité?

En fait, le taux de mortalité des premiers est plus élevé, mais comment cette conclusion est-elle ressortie? analyse de régression! Sous l'hypothèse de contrôler d'autres facteurs, de quantifier la relation entre une variable spécifique et un résultat spécifique, revenir à la question elle-même consiste à analyser les effets néfastes du travail de bas niveau sur la santé d'une certaine population. La puissante capacité de l'analyse de régression réside dans l'isolement des associations statistiques qui nous intéressent.

Nous nous concentrons sur l'analyse de régression pour nous concentrer sur deux points, la corrélation entre les variables et si les résultats sont statistiquement significatifs. Enfin, l'analyse de régression doit trouver la relation la mieux adaptée entre les deux variables , comme la relation entre la taille et le poids. Bien qu'elle ne soit pas absolue, les personnes plus grandes pèsent généralement plus. Comment déterminer la «meilleure» relation appropriée? La réponse est la méthode des moindres carrés. Elle ne sera pas développée ici. Vous pouvez Baidu ou lire le livre par vous-même.

image
En fait, la difficulté de l'analyse de régression n'est pas la technologie elle-même, mais quelles variables sont utilisées et comment tirer le meilleur parti de ces variables. C'est également l'objet de ce chapitre.


13. Erreurs de retour fatales

L'analyse de régression fournit des réponses précises à des questions complexes, mais ces réponses ne sont pas nécessairement exactes. Ce chapitre traite des éléments à prendre en compte lors de l'application de l'analyse de régression. Il existe plusieurs erreurs courantes:

  • Utilisez des équations de régression pour analyser les relations non linéaires. Ce n'est que lorsque la relation entre les variables est linéaire que l'analyse de régression peut être utile.

  • La corrélation n'est pas la même chose que la causalité.

  • Inversion de cause à effet. Assurez-vous que la variable indépendante affecte la variable dépendante, et non l'inverse.

  • Écart d'omission variable. Si le golf est sujet aux maladies cardiaques, cette conclusion est que la variable d'âge est omise, car ce n'est peut-être pas que le golf est sujet aux maladies cardiaques, mais que les personnes âgées sont sujettes aux maladies cardiaques.

  • Variables indépendantes hautement corrélées (colinéarité multiple). Si deux variables indépendantes sont fortement corrélées, il est alors impossible de distinguer la vraie relation entre elles et la variable dépendante.

  • Faites des inférences à partir des données. L'équation de régression utilisée pour expliquer cet échantillon ne s'applique pas nécessairement à un autre échantillon.

  • Exploration de données (trop de variables).

14. Évaluation des projets et "contre-réalité"

Q14: Une fois que les diplômés de l'Université de Harvard sont entrés dans la société, leurs revenus sont souvent plus élevés que ceux des diplômés universitaires ordinaires. Est-ce l'avantage de l'école qui leur permet d'obtenir des revenus élevés ou est-ce qu'ils sont eux-mêmes exceptionnels?

Cette question doit être expliquée par une expérience contrôlée non équivalente. "Par rapport au nom de l’école sur le diplôme, une bonne compréhension de ses propres intérêts, ambitions et capacités peut améliorer la vie d’une personne", je pense que c’est la meilleure réponse à cette question.

Ce qui précède est ce que je pense après avoir lu ce livre, et j'ai également fait un graphique de connaissances, comme suit (si vous ne voyez pas clairement, vous pouvez ajouter WeChat data_cola pour me demander l'image originale):

image


Je suppose que tu aimes

Origine blog.51cto.com/15064638/2598067
conseillé
Classement