Warum Statistik studieren: Nackte Statistik

"Naked Statistics", Autor [Amerika] Charles Wayland, veröffentlicht 2013, Douban Score 8,1 Punkte, kann als gutes Buch für einführende Statistiken verwendet werden, Wissenspunkte sind leicht zu verstehen, sehr freundlich zu Xiaobai, Personen mit statistischem Fachwissen haben möglicherweise das Gefühl, dass es weniger Trockenwaren gibt. Im Allgemeinen lohnt es sich zu lesen, der Empfehlungsindex beträgt 4 Sterne. Am Ende des Artikels befindet sich ein Wissensdiagramm zu diesem Buch .

Bild

1. Statistik ist das heißeste Wissen im Zeitalter von Big Data

Zu Beginn des ersten Kapitels wurden einige interessante Fragen aufgeworfen:

  • Ist der Gini-Koeffizient der perfekteste Indikator, um die Fairness der sozialen Verteilung zu messen? (Beschreibende Statistik)

  • Woher kennt die Video-Site die Art des Films, den Sie mögen (Relevanz)

  • Kann das Gebet die postoperative Genesung des Patienten wirklich verbessern (randomisiertes kontrolliertes Experiment)?

  • Was bewirkt, dass die Inzidenz von Autismus weiter zunimmt (Korrelation)

Hinter diesen Fragen steht ein statistischer Wissenspunkt. Ich glaube, dass Sie nach dem Lesen dieses Buches auch die Antwort erhalten können.

2. Beschreibende Statistik

Das zweite Kapitel beantwortet tatsächlich die Frage im ersten Kapitel am Anfang:

Ist der Gini-Koeffizient der perfekteste Indikator, um die Fairness der sozialen Verteilung zu messen?

Lassen Sie mich zuerst über die Antwort sprechen: Nein. Statistiken bieten selten die einzig richtige Methode. Der Gini-Koeffizient ist ein beschreibender Datenindikator, der eine Reihe komplexer Daten zu einem einzigen digitalen Tool zusammenfasst. Er ist nicht der perfekte Indikator, um die Fairness der sozialen Verteilung zu messen, aber er tut es Es enthält einige Informationen über die Fairness der sozialen Verteilung auf bequeme und leicht verständliche Weise. Gleichzeitig ist zu beachten, dass vereinfachte Daten in Gefahr sind, missbraucht zu werden. Dies ist der Vor- und Nachteil deskriptiver Statistiken.

In Bezug auf deskriptive Statistiken ist es unvermeidlich, den Durchschnitt, den Median, das Quantil, die Standardabweichung und die Varianz zu erwähnen . Dieses Kapitel enthält eine detaillierte Beschreibung und ein detailliertes Verständnis dieser Konzepte.

Zu Beginn dieses Kapitels wurde auch ein Grundschulmathematikproblem angesprochen:

Ein Kleid, das Sie schon immer kaufen wollten, wird im Einkaufszentrum für 4.999 Yuan verkauft. Der Preis wird um 25% gesenkt und dann um 25% erhöht. Was ist der Endpreis?

Die Antwort lautet 93,75, hast du recht? Für Kinderschuhe, die vergessen zu berechnen, können Sie es Baidu. Dies ist eine sehr einfache Frage der Berechnung von Prozentsatz und Wachstumsrate.

3. Statistiken werden lügen

F3: 1950 betrug das durchschnittliche Stundengehalt der Menschen 1 USD. 2012 betrug das durchschnittliche Stundengehalt der Menschen 5 USD. Glauben Sie, dass unsere Löhne gestiegen sind?


image.pngDiese Frage wird zuerst aufgeworfen. In Bezug auf die Tatsache, dass Statistiken lügen werden, glaube ich, dass jeder tief empfunden ist. Die Daten sind wahr und es lügt nicht. Es ist nur so, dass der Interpretationswinkel und die Analyseeinheit unterschiedlich sind . Ein schlechtes Beispiel ist noch einmal zu erwähnen, dh der Median und der Durchschnitt. Der Durchschnitt von (3,4,5,6,102) ist 24 und der Median ist 5. Der Unterschied zwischen diesen beiden Zahlen Es ist immer noch sehr groß, weshalb das Gehalt durchschnittlich hoch ist. Es muss unterschieden werden zwischen den Analyseeinheiten, den beschriebenen Objekten und ob es Unterschiede gibt, wer oder was zwischen verschiedenen Populationen. Das Urteil ist wichtiger als die Mathematik


Zurück zu der Frage am Anfang: Hat sich das Lohnniveau erhöht? Tatsächlich weiß jeder, dass man nicht einfach auf den Anstieg der Zahlen achten kann, da es eine Inflation gibt. Man muss die beiden Werte in dieselbe Einheit umrechnen, z. B. alle in 2011-Dollar umgerechnet, und sie dann vergleichen.

Viertens Korrelation und Korrelationskoeffizient

Dieses Kapitel beantwortet die in Kapitel 1 aufgeworfene Frage:

Woher weiß eine Video-Site, welche Art von Film Sie mögen?

Die Antwort ist Korrelation. Ein Indikator zur Beschreibung der Korrelation ist der Korrelationskoeffizient . Ich werde nicht zu detailliert darauf eingehen, wie der Korrelationskoeffizient die Korrelation erklärt. In Bezug auf die Korrelation ist das Wichtigste, was Sie wissen müssen, dass Korrelation nicht gleich Kausalität ist . Die Noten der Schüler korrelieren positiv mit der Anzahl der Fernsehgeräte zu Hause. Dies bedeutet nicht, dass sich die Noten der Kinder verbessern können, solange die Eltern 5 weitere Fernsehgeräte kaufen.

Fünf, Wahrscheinlichkeit und erwarteter Wert

F5: Kaufen Sie Lottoscheine, gehen Sie in Casinos, um zu spielen, investieren Sie in Aktien oder Futures, wodurch Sie eher auf der "Forbes" -reichen Liste stehen.

Dies ist eine Frage der Wahrscheinlichkeit. Wahrscheinlichkeit ist die Untersuchung unsicherer Ereignisse und Ergebnisse. Die Wahrscheinlichkeit sagt uns nicht klar, was passieren wird, aber wir können durch Berechnung der Wahrscheinlichkeit wissen, was passieren kann und was unwahrscheinlich ist.

Der erwartete Wert ist die Summe aller Ereignisse, nicht nur eine Zahl, sondern auch ein Indikator für unser Urteilsvermögen.

Das Gesetz der großen Anzahl, wenn die Anzahl der Versuche zunimmt, wird das durchschnittliche Ergebnis näher an den erwarteten Wert heranrücken. Zum Beispiel beträgt der erwartete Rückgabewert eines 1-Yuan-Lottoscheins 0,56 Yuan. Auf lange Sicht ist dies eine schlechte Investition unter den Kosten, aber ich hatte das Glück, heute 5 Yuan zu gewinnen, aber nach dem Gesetz der großen Zahlen, wenn ich es für viele Jahre kaufe Untergehen ist zweifellos ein Geldverlust.

Bild

6. Monty Hall Paradox

F6: Hinter Tür 3, die vom Gastgeber geöffnet wurde, befindet sich ein Schaf. In den verbleibenden Türen 1 und 2 muss sich ein Auto hinter der Tür befinden. Wie können Sie den Jackpot gewinnen?

Dies ist das berühmte Wahrscheinlichkeitsproblem von Autos, Ziegen und Türen. Es heißt Monty Hall's Paradox. In einer Varieté-Show gibt es 3 Türen, eine hinter der Tür ist ein Auto und die andere ein Schaf. Die Teilnehmer wählen eine. Tür, der Gastgeber öffnet eine der beiden verbleibenden Türen mit einem Schaf und fragt dann die Teilnehmer, ob sie die ursprüngliche Wahl ändern sollen?

Dies ist immer noch ein Wahrscheinlichkeitsproblem. Durch Berechnung ist bekannt, dass die Wahrscheinlichkeit einer Änderung der ursprünglichen Auswahl größer ist. Diese Frage hat auch zu vielen verschiedenen Erklärungen und Antworten geführt, und interessierte Freunde können sie selbst finden.

Sieben, der Vorfall mit dem schwarzen Schwan

F7: Wie wurde das 1% ige Risiko mit geringer Wahrscheinlichkeit zum schwarzen Schwan, der 2008 die Wall Street besiegte und das globale Finanzsystem zerstörte?

Die Wurzel dieses Problems liegt darin, über das Value-at-Risk-Modell zu sprechen. Einfach ausgedrückt, ein einfacher Indikator, der den maximalen Verlust angibt, den eine Investition dem Unternehmen in einem bestimmten Zeitraum zufügen kann. Die Wahrscheinlichkeit für dieses Ergebnis beträgt 1%, was bedeutet Diese Investition ist in 99% der Fälle sicher, aber es sind die verbleibenden 1%, die die Dinge wirklich vermasselt haben.

Einige wahrscheinliche Missverständnisse, wenn Sie interessiert sind, können Sie das Buch selbst lesen:

  • Nehmen Sie an, dass es keinen Zusammenhang zwischen Ereignissen gibt

  • Wissen Sie nichts über die statistische Unabhängigkeit von zwei Ereignissen: wie den Irrtum des Spielers

  • Das Auftreten von Häufungen von Fällen: kann nur ein Zufall sein

  • Irrtum der Staatsanwaltschaft

  • Regressionsmittel

  • Statistische Diskriminierung

In den drei Kapiteln 5, 6 und 7 geht es um die Wahrscheinlichkeit. Obwohl die Wahrscheinlichkeit viele Vorteile in Bezug auf Einfachheit und Präzision hat, kann sie den Menschen als Gegenstand von Berechnungen und die Gründe für Berechnungen nicht ersetzen.

8. Daten und Voreingenommenheit

Wenn Sie die Merkmale der gesamten Population genau wiedergeben möchten, ist die Stichprobe zweifellos die bequemste und fairste Methode. Wenn jedoch ein Problem mit der Zusammensetzung der Population selbst vorliegt, dh der sogenannten "Verzerrung", kann diese "Verzerrung" nicht geändert werden, unabhängig davon, wie groß die Stichprobengröße ist. . Dies zeigt uns, dass keine strenge Analyse zwecklos ist, wenn es ein Problem mit den Daten selbst gibt.

Hier einige Beispiele, bei denen die statistischen Methoden korrekt sind und die Daten selbst problematisch sind:
ü Selektiver Bias
ü Publikationsbias
ü Speicher-Bias
ü Survivor-Bias
ü Gesunde Benutzer-Bias

Bild

Neun, der zentrale Grenzwertsatz

F9: Ein kaputter Bus voller fettleibiger Passagiere steht auf der Straße in der Nähe Ihres Hauses. Sie können daraus schließen, dass der Marathon in seiner Zielstadt immer noch die Ausstellungshalle des Nationalen Wurstfestivals ist.

Diese Frage scheint auf einen Blick eine Schlussfolgerung ziehen zu können. Es muss sich um die Ausstellungshalle des Nationalen Wurstfestivals handeln. Diese allgemeine Fähigkeit ist häufig der zentrale Grenzwertsatz. Die Essenz des zentralen Grenzwertsatzes ist die korrekte Stichprobe einer großen Stichprobe und der Gruppe, die sie repräsentiert. Es gibt ähnliche Beziehungen. Es ist die Logik des zentralen Grenzwertsatzes, die uns sagt, dass die meisten Marathonläufer relativ dünn sind, so dass die Wahrscheinlichkeit, dass so viele "Schwergewichts" -Sportler in ein Auto gesetzt werden, sehr gering ist, sodass der Zweck dieses Autos bestimmt wird Der Boden ist die Ausstellungshalle des Wurstfestivals.

10. Statistische Inferenz und Hypothesentest

F10: Spamfilterung, Krebsvorsorge, Terroristenjagd, was können wir nicht tolerieren, wenn etwas schief geht, und welches können wir ignorieren?

Statistiken können nichts schlüssiges beweisen, aber Sie können zuerst einige Gesetze und Ergebnisse entdecken und dann die Wahrscheinlichkeit verwenden, um die wahrscheinlichsten Gründe für diese Ergebnisse zu beweisen. Das am häufigsten verwendete Werkzeug in diesem Prozess ist das Testen von Hypothesen.

Die Idee des Hypothesentests ist die Widerspruchsmethode mit geringer Wahrscheinlichkeit , die wie folgt verstanden werden kann: Nehmen Sie zuerst eine Schlussfolgerung an (Nullhypothese) und unterstützen oder widerlegen Sie sie dann durch statistische Analyse.

Gib eine Kastanie:

  • Nullhypothese: Ein neues Medikament ist bei der Vorbeugung von Malaria nicht wirksamer als ein Placebo

  • Alternative Hypothese: Das neue Medikament kann Malaria verhindern

Statistischer Inferenzprozess: Die Inzidenz von Malaria in der Gruppe, die das neue Medikament einnimmt, ist viel geringer als in der Kontrollgruppe, die das Placebo einnimmt. Wenn das neue Medikament keine heilende Wirkung hat, ist die Wahrscheinlichkeit dieses Ergebnisses sehr gering. Daher wird die Nullhypothese zurückgewiesen.

Zurück zur Frage von Q10: Der Hypothesentest enthält Fehler vom Typ I und vom Typ II . Die drei Fälle dieses Problems stellen einen Kompromiss zwischen diesen beiden Fehlern dar. Insbesondere können Sie das Buch sorgfältig lesen ~

11. Meinungsumfragen und Fehlerquote

F11: Die Umfrageergebnisse zeigen, dass 89% der Amerikaner nicht glauben, dass die Regierung das Richtige tun wird, und 46% befürworten Obamas Arbeitsleistung. Kann dieses Ergebnis das wahre amerikanische Denken widerspiegeln?

Meinungsumfragen (Umfragen) basieren auf dem zentralen Grenzwertsatz . Natürlich können Sie auch die Wahrscheinlichkeit berechnen, dass die Stichprobenergebnisse in einem großen Bereich vom Ganzen abweichen. Dies ist die Fehlerquote. Es besteht eine Wahrscheinlichkeit von 95%, dass die Umfrageergebnisse innerhalb von 3% der tatsächlichen Situation schwanken.

Bei der Durchführung einer Umfrage sind mehrere Punkte zu beachten:

  • Entspricht dieses Beispiel korrekt den tatsächlichen Ansichten der Zielgruppe? Um keine selektive Vorspannung zu verursachen

  • Kann die Fragestellung während des Interviews zu nützlichen Informationen für das Forschungsthema führen?

  • Ist das, was der Befragte gesagt hat, wahr?

12. Regressionsanalyse und lineare Beziehung

F12: Welche Art von Arbeitsdruck führt Ihrer Meinung nach eher zum plötzlichen Tod am Arbeitsplatz? Ist es ein Job, dem es an Kontrolle und Stimme mangelt, oder ist es ein Job mit großer Macht und Verantwortung?

Tatsächlich ist die Sterblichkeitsrate der ersteren höher, aber wie kam diese Schlussfolgerung heraus? Regressionsanalyse! Unter der Voraussetzung, andere Faktoren zu kontrollieren und die Beziehung zwischen einer bestimmten Variablen und einem bestimmten Ergebnis zu quantifizieren, wird auf die Frage selbst zurückgegriffen, um den Schaden von Arbeit auf niedriger Ebene für die Gesundheit einer bestimmten Bevölkerung zu analysieren. Die leistungsstarke Fähigkeit der Regressionsanalyse besteht darin, die statistischen Assoziationen zu isolieren, die uns wichtig sind.

Wir konzentrieren uns auf die Regressionsanalyse, um uns auf zwei Punkte zu konzentrieren, die Korrelation zwischen Variablen und ob die Ergebnisse statistisch signifikant sind. Schließlich muss die Regressionsanalyse die am besten passende Beziehung zwischen den beiden Variablen finden , z. B. die Beziehung zwischen Größe und Gewicht. Obwohl dies nicht absolut ist, wiegen größere Personen im Allgemeinen mehr. Wie kann man die "am besten" passende Beziehung bestimmen? Die Antwort ist die Methode der kleinsten Quadrate. Sie wird hier nicht erweitert. Sie können Baidu oder das Buch selbst lesen.

Bild
Tatsächlich liegt die Schwierigkeit der Regressionsanalyse nicht in der Technologie selbst, sondern darin, welche Variablen verwendet werden und wie diese Variablen am besten genutzt werden können. Dies ist auch der Schwerpunkt dieses Kapitels.


13. Schwerwiegende Rückgabefehler

Die Regressionsanalyse liefert präzise Antworten auf komplexe Fragen, die jedoch nicht unbedingt korrekt sind. In diesem Kapitel wird erläutert, worauf bei der Anwendung der Regressionsanalyse zu achten ist. Es gibt mehrere häufige Fehler:

  • Verwenden Sie Regressionsgleichungen, um nichtlineare Beziehungen zu analysieren. Nur wenn die Beziehung zwischen den Variablen linear ist, kann eine Regressionsanalyse nützlich sein.

  • Korrelation ist nicht dasselbe wie Kausalität.

  • Umkehrung von Ursache und Wirkung. Stellen Sie sicher, dass die unabhängige Variable die abhängige Variable beeinflusst und nicht umgekehrt.

  • Variable Auslassungsabweichung. Wenn Golfspielen anfällig für Herzkrankheiten ist, ist diese Schlussfolgerung, dass die Altersvariable weggelassen wird, da Golf möglicherweise nicht anfällig für Herzkrankheiten ist, sondern dass ältere Menschen anfällig für Herzkrankheiten sind.

  • Hoch korrelierte unabhängige Variablen (multiple Kollinearität). Wenn zwei unabhängige Variablen stark korreliert sind, ist es unmöglich, die wahre Beziehung zwischen ihnen und der abhängigen Variablen zu unterscheiden.

  • Machen Sie Schlussfolgerungen aus den Daten. Die zur Erklärung dieser Stichprobe verwendete Regressionsgleichung gilt nicht unbedingt für eine andere Stichprobe.

  • Data Mining (zu viele Variablen).

14. Projektevaluierung und "Gegenrealität"

F14: Nach dem Eintritt in die Gesellschaft haben Absolventen der Harvard University oft ein höheres Einkommen als normale Universitätsabsolventen. Ist dies der Schulvorteil oder sind sie herausragend?

Diese Frage sollte durch ein nicht gleichwertiges kontrolliertes Experiment erklärt werden: "Verglichen mit dem Namen der Schule auf dem Abschlusszeugnis kann ein korrektes Verständnis der eigenen Interessen, Ambitionen und Fähigkeiten das Leben eines Menschen verbessern." Ich glaube, dies ist die beste Antwort auf diese Frage.

Das Obige sind meine Gedanken nach dem Lesen dieses Buches, und ich habe auch ein Wissensdiagramm wie folgt erstellt (wenn Sie nicht klar sehen, können Sie WeChat data_cola hinzufügen, um mich nach dem Originalbild zu fragen):

Bild


Ich denke du magst

Origin blog.51cto.com/15064638/2598067
Empfohlen
Rangfolge