Hier ist eine neue Grube, das Thema dreht sich um die Verwendung von Statistiken und die Einführung der quantitativen Analyse. Der Hauptinhalt stammt aus dem vorherigen und nachfolgenden Kursstudium, Hausaufgaben und Datenabfrage. Der Hauptzweck besteht darin, den persönlichen Lernprozess für die Zukunft aufzuzeichnen Rezension.
1 Daten importieren
Methode 1: Klicken Sie auf die Dateioption, wählen Sie „Importieren“ und wählen Sie entsprechend dem Datentyp aus.
Methode 2: Klicken Sie, um die Dateneditor-Schnittstelle aufzurufen, klicken Sie auf „Datei“ und wählen Sie „Öffnen“. Beachten Sie, dass diese Methode nur die .dta-Datei öffnen kann. Wenn die Datenmenge klein ist, wird empfohlen, sie in Excel zu öffnen, alles auszuwählen, zu kopieren und in den Dateneditor einzufügen.
Wenn Sie die importierte Excel-Datei in Daten umwandeln möchten, können Sie in der Datei auf der Hauptoberfläche „Speichern unter“ auswählen.
2 Variablenbeschriftungen ändern
Methode 1: Geben Sie direkt im Eigenschaftenfenster des Dateneditors ein
Methode 2: Geben Sie im Befehlsfenster
die Bezeichnungsvariable Stadt „Stadt“ ein
und achten Sie auf den Variablennamen nach var. Auch chinesische Schriftzeichen benötigen keine Anführungszeichen
3 Daten anzeigen
1. Geben Sie den Befehl beschreiben ein (kann als d abgekürzt werden), um die Variablennamen, Beschriftungen usw. im Datensatz anzuzeigen
2. Wenn Sie die spezifischen Daten bestimmter Variablen sehen möchten, geben Sie den Befehl ein:
list ABC
3. Teilmengen von Datensätzen können auch durch logische Beziehungen definiert werden. Um beispielsweise Daten mit C-Variablen größer oder gleich 10000 aufzulisten, verwenden Sie den Befehl:
list AC if C>=10000
Beachten Sie hier, dass andere logische Symbole, die Beziehungen darstellen, „==" (gleich) und „~=" (ungleich) umfassen und auch durch „!=" dargestellt werden können. Die Rolle des Gleichheitszeichens in Stata ähnelt der in Python. Eins = ist eine Zuweisung und zwei = = bedeutet gleich. Außerdem muss das Gleichheitszeichen nach dem „if“ „==“ lauten.
4. Daten löschen und ändern:
①Wenn Sie den beobachteten Wert löschen möchten, der die Bedingung „C<=10000“ erfüllt, können Sie „
drop if C<=10000“ eingeben
. ②Wenn Sie nur den beobachteten Wert „C<=“ behalten möchten 10000“, können Sie
„Keep“ eingeben, wenn C< =10000.
Beachten Sie, dass es in Stata keine Entnahme gibt. Löschen Sie die Daten daher mit Vorsicht.
5. Wenn Sie die Daten in aufsteigender Reihenfolge der Variablen C sortieren möchten, können Sie
sort C
list eingeben
. Wenn Sie die Daten in absteigender Reihenfolge der Variablen C sortieren möchten, können Sie
gsort -C eingeben
4 Zeichnung
1.Hist-Variablenname, Breite (5) Häufigkeit,
wobei Hist Histogramm bedeutet, Histogramm bedeutet, Breite (5) bedeutet, dass das Gruppenelement auf 5 gesetzt ist, und Häufigkeit bedeutet, dass die vertikale Achse als Häufigkeit festgelegt ist (Dichte wird standardmäßig verwendet). 2. sc
-Variable 1 Variable 2, mlabel (Variable 1),
wobei sc „Scatter“ bedeutet, also ein Streudiagramm zweier Variablen zeichnet, um die Beziehung zwischen den beiden zu sehen. mlabel bedeutet, Variable 1 als Beschriftung zu verwenden, die in der Abbildung angezeigt wird
5 Statistische Analyse
1.su-Variable 1
, wobei su-Zauber zusammenfassen, um die Stichprobengröße, den Mittelwert, die Standardabweichung, das Minimum und das Maximum von Variable 1 zu berechnen. Wenn die Variable nicht angegeben ist, werden die statistischen Indikatoren aller Variablen ausgegeben.
2. ta-Variable 1
, wobei ta eine tabellarische Darstellung bedeutet, um die empirische kumulative Verteilungsfunktion der Variablen 1 anzuzeigen, Freq die Häufigkeit darstellt, Percent den Prozentsatz darstellt und Cum darstellt der kumulative Prozentsatz
3.Cor-Variable 1 Variable 2 Variable 3,
wobei Cor-Zaubersprüche korrelieren und die Korrelation zwischen den Variablen 1 2 3 zeigt
6 Erzeugen Sie neue Variablen
1. Dies wird durch die Abkürzung von „generate“ als „gen“ realisiert.
gen lnB=ln(B)
Der obige Befehl kann den Logarithmus der Variablen B definieren und eine neue Variable mit dem Namen lnB generieren.
gen quadratB=B^2
Der obige Befehl bedeutet, eine neue quadratische Variable von B
2 zu generieren. Generieren Sie eine Dummy-Variable Das heißt, es enthält nur 0 Binärelementgenerierung
von 1 Variable 2=1, wenn Variable 11
Ersetze Variable 2=0, wenn Variable 23.
Variable 1 umbenennen,
Variable 1, Variable 1 wird in Variable 1 umbenannt.
4. Variable 1 löschen,
Variable 1 wird gelöscht
7 Verknüpfen Sie neue Variablen
Wenn Sie Variablen in anderen Datensätzen zusammenführen müssen, müssen Sie den Befehl „Zusammenführen“ verwenden. Beispielsweise muss die Variable B zu Tabelle 1 hinzugefügt werden, die sich in Tabelle 2 befindet, und das gemeinsame Feld ist A. Anschließend kann der folgende Befehl verwendet werden, um B in Tabelle 1 zusammenzuführen: use C:\ table 1.dta, Zusammenführung löschen m
:
1 A mit E:\table2.dta, weiterhin(B) verwenden,
löschen, wenn _merge2
drop _merge
wobei m;1 angibt, dass die Datenkorrespondenz viele zu 1 beträgt, was relativ häufig vorkommt. Ausführliche Erläuterungen zur Verwendung von Merge finden Sie in anderen Blogbeiträgen: https://blog.csdn.net/qq_42729246/ Artikel/Details/105623056
Beibehaltung der Verwendung von (B) Dies bedeutet, dass nur die B-Variable importiert wird. Wenn diese Option nicht hinzugefügt wird, bedeutet dies, dass alle Variablen in Tabelle 2 importiert werden.
if_merge löschen2 bedeutet, nicht übereinstimmende Daten zu löschen.
_merge bedeutet, die neu generierte _merge-Variable zu löschen
8 Dateien erstellen
Klicken Sie im obigen Bild auf die neue Do-Datei, um Code zu schreiben und eine wiederholbare Verwendung zu erreichen
9 verwandte Übungen
1. Berechnen Sie den Variationskoeffizienten von BIP und College.
Die Formel des Variationskoeffizienten lautet V=S/|x ̅ | , wobei S die Standardabweichung und x ̅ der Durchschnittswert ist. Beide können mit den Funktionen berechnet werden, die mit Stata geliefert werden. Der spezifische Code lautet wie folgt: Das
berechnete Ergebnis ist, dass der Variationskoeffizient des BIP 0,7695182 und der Variationskoeffizient der Hochschule 0,4989674 beträgt (7 Nachkommastellen). reserviert).
2. Verwendung von Stata zur Berechnung des Gini-Koeffizienten
Hier habe ich die Bevölkerungs- und BIP-Daten kombiniert, um den Gini-Koeffizienten als Pro-Kopf-BIP in jeder Provinz zu berechnen. Die ausgewählte Formel ist
Unter diesen ist p_i der Anteil einer regionalen Einheit, w_i der Anteil eines bestimmten Indikators in einer Region und q_i der kumulative Anteil. Da der Gini-Koeffizient des Pro-Kopf-BIP berechnet werden soll, ist p_i der Anteil der Bevölkerung jeder Provinz an der Gesamtbevölkerung, w_i der Anteil des BIP jeder Provinz am Gesamt-BIP und q_i der Anteil des kumulierten BIP sortiert nach BIP pro Kopf. Der spezifische Code lautet wie folgt:
Der berechnete Gini-Koeffizient beträgt 0,2032725 (7 Dezimalstellen reservieren).
3. Standardisieren Sie den Bereich der Handelsvariablen und weisen Sie ihn einer neuen Variablen zu
. Wie bei der vorherigen Frage liegt der Unterschied in der Formel im Nenner, der durch den Bereich des Maximalwerts minus dem Minimalwert ersetzt wird. Die spezifische Formel lautet:
Das Operationsergebnis lautet wie folgt: