Anmerkungen zur Stata-Studie (1) Einführung und grundlegende Funktionsweise von Stata

Hier ist eine neue Grube, das Thema dreht sich um die Verwendung von Statistiken und die Einführung der quantitativen Analyse. Der Hauptinhalt stammt aus dem vorherigen und nachfolgenden Kursstudium, Hausaufgaben und Datenabfrage. Der Hauptzweck besteht darin, den persönlichen Lernprozess für die Zukunft aufzuzeichnen Rezension.

1 Daten importieren

Methode 1: Klicken Sie auf die Dateioption, wählen Sie „Importieren“ und wählen Sie entsprechend dem Datentyp aus.
Fügen Sie hier eine Bildbeschreibung ein

Methode 2: Klicken Sie, um die Dateneditor-Schnittstelle aufzurufen, klicken Sie auf „Datei“ und wählen Sie „Öffnen“. Beachten Sie, dass diese Methode nur die .dta-Datei öffnen kann. Wenn die Datenmenge klein ist, wird empfohlen, sie in Excel zu öffnen, alles auszuwählen, zu kopieren und in den Dateneditor einzufügen.
Fügen Sie hier eine Bildbeschreibung ein

Wenn Sie die importierte Excel-Datei in Daten umwandeln möchten, können Sie in der Datei auf der Hauptoberfläche „Speichern unter“ auswählen.

2 Variablenbeschriftungen ändern

Methode 1: Geben Sie direkt im Eigenschaftenfenster des Dateneditors ein
Fügen Sie hier eine Bildbeschreibung ein

Methode 2: Geben Sie im Befehlsfenster
die Bezeichnungsvariable Stadt „Stadt“ ein
und achten Sie auf den Variablennamen nach var. Auch chinesische Schriftzeichen benötigen keine Anführungszeichen

3 Daten anzeigen

1. Geben Sie den Befehl beschreiben ein (kann als d abgekürzt werden), um die Variablennamen, Beschriftungen usw. im Datensatz anzuzeigen
Fügen Sie hier eine Bildbeschreibung ein

2. Wenn Sie die spezifischen Daten bestimmter Variablen sehen möchten, geben Sie den Befehl ein:
list ABC
Fügen Sie hier eine Bildbeschreibung ein

3. Teilmengen von Datensätzen können auch durch logische Beziehungen definiert werden. Um beispielsweise Daten mit C-Variablen größer oder gleich 10000 aufzulisten, verwenden Sie den Befehl:
list AC if C>=10000
Fügen Sie hier eine Bildbeschreibung ein

Beachten Sie hier, dass andere logische Symbole, die Beziehungen darstellen, „==" (gleich) und „~=" (ungleich) umfassen und auch durch „!=" dargestellt werden können. Die Rolle des Gleichheitszeichens in Stata ähnelt der in Python. Eins = ist eine Zuweisung und zwei = = bedeutet gleich. Außerdem muss das Gleichheitszeichen nach dem „if“ „==“ lauten.
4. Daten löschen und ändern:
①Wenn Sie den beobachteten Wert löschen möchten, der die Bedingung „C<=10000“ erfüllt, können Sie „
drop if C<=10000“ eingeben
. ②Wenn Sie nur den beobachteten Wert „C<=“ behalten möchten 10000“, können Sie
„Keep“ eingeben, wenn C< =10000.
Beachten Sie, dass es in Stata keine Entnahme gibt. Löschen Sie die Daten daher mit Vorsicht.
5. Wenn Sie die Daten in aufsteigender Reihenfolge der Variablen C sortieren möchten, können Sie
sort C
list eingeben
. Wenn Sie die Daten in absteigender Reihenfolge der Variablen C sortieren möchten, können Sie
gsort -C eingeben

4 Zeichnung

1.Hist-Variablenname, Breite (5) Häufigkeit,
wobei Hist Histogramm bedeutet, Histogramm bedeutet, Breite (5) bedeutet, dass das Gruppenelement auf 5 gesetzt ist, und Häufigkeit bedeutet, dass die vertikale Achse als Häufigkeit festgelegt ist (Dichte wird standardmäßig verwendet). 2. sc
-Variable 1 Variable 2, mlabel (Variable 1),
wobei sc „Scatter“ bedeutet, also ein Streudiagramm zweier Variablen zeichnet, um die Beziehung zwischen den beiden zu sehen. mlabel bedeutet, Variable 1 als Beschriftung zu verwenden, die in der Abbildung angezeigt wird

5 Statistische Analyse

1.su-Variable 1
, wobei su-Zauber zusammenfassen, um die Stichprobengröße, den Mittelwert, die Standardabweichung, das Minimum und das Maximum von Variable 1 zu berechnen. Wenn die Variable nicht angegeben ist, werden die statistischen Indikatoren aller Variablen ausgegeben.
Fügen Sie hier eine Bildbeschreibung ein
2. ta-Variable 1
, wobei ta eine tabellarische Darstellung bedeutet, um die empirische kumulative Verteilungsfunktion der Variablen 1 anzuzeigen, Freq die Häufigkeit darstellt, Percent den Prozentsatz darstellt und Cum darstellt der kumulative Prozentsatz
Fügen Sie hier eine Bildbeschreibung ein
3.Cor-Variable 1 Variable 2 Variable 3,
wobei Cor-Zaubersprüche korrelieren und die Korrelation zwischen den Variablen 1 2 3 zeigt
Fügen Sie hier eine Bildbeschreibung ein

6 Erzeugen Sie neue Variablen

1. Dies wird durch die Abkürzung von „generate“ als „gen“ realisiert.
gen lnB=ln(B)
Der obige Befehl kann den Logarithmus der Variablen B definieren und eine neue Variable mit dem Namen lnB generieren.
gen quadratB=B^2
Der obige Befehl bedeutet, eine neue quadratische Variable von B
2 zu generieren. Generieren Sie eine Dummy-Variable Das heißt, es enthält nur 0 Binärelementgenerierung
von 1 Variable 2=1, wenn Variable 11
Ersetze Variable 2=0, wenn Variable 2
3.
Variable 1 umbenennen,
Variable 1, Variable 1 wird in Variable 1 umbenannt.
4. Variable 1 löschen,
Variable 1 wird gelöscht

7 Verknüpfen Sie neue Variablen

Wenn Sie Variablen in anderen Datensätzen zusammenführen müssen, müssen Sie den Befehl „Zusammenführen“ verwenden. Beispielsweise muss die Variable B zu Tabelle 1 hinzugefügt werden, die sich in Tabelle 2 befindet, und das gemeinsame Feld ist A. Anschließend kann der folgende Befehl verwendet werden, um B in Tabelle 1 zusammenzuführen: use C:\ table 1.dta, Zusammenführung löschen m
:
1 A mit E:\table2.dta, weiterhin(B) verwenden,
löschen, wenn _merge2
drop _merge
wobei m;1 angibt, dass die Datenkorrespondenz viele zu 1 beträgt, was relativ häufig vorkommt. Ausführliche Erläuterungen zur Verwendung von Merge finden Sie in anderen Blogbeiträgen: https://blog.csdn.net/qq_42729246/ Artikel/Details/105623056
Beibehaltung der Verwendung von (B) Dies bedeutet, dass nur die B-Variable importiert wird. Wenn diese Option nicht hinzugefügt wird, bedeutet dies, dass alle Variablen in Tabelle 2 importiert werden.
if_merge löschen
2 bedeutet, nicht übereinstimmende Daten zu löschen.
_merge bedeutet, die neu generierte _merge-Variable zu löschen

8 Dateien erstellen

Fügen Sie hier eine Bildbeschreibung ein
Klicken Sie im obigen Bild auf die neue Do-Datei, um Code zu schreiben und eine wiederholbare Verwendung zu erreichen

9 verwandte Übungen

1. Berechnen Sie den Variationskoeffizienten von BIP und College.
Die Formel des Variationskoeffizienten lautet V=S/|x ̅ | , wobei S die Standardabweichung und x ̅ der Durchschnittswert ist. Beide können mit den Funktionen berechnet werden, die mit Stata geliefert werden. Der spezifische Code lautet wie folgt: Das
Fügen Sie hier eine Bildbeschreibung ein
berechnete Ergebnis ist, dass der Variationskoeffizient des BIP 0,7695182 und der Variationskoeffizient der Hochschule 0,4989674 beträgt (7 Nachkommastellen). reserviert).

Fügen Sie hier eine Bildbeschreibung ein
2. Verwendung von Stata zur Berechnung des Gini-Koeffizienten
Hier habe ich die Bevölkerungs- und BIP-Daten kombiniert, um den Gini-Koeffizienten als Pro-Kopf-BIP in jeder Provinz zu berechnen. Die ausgewählte Formel ist
Fügen Sie hier eine Bildbeschreibung ein

Unter diesen ist p_i der Anteil einer regionalen Einheit, w_i der Anteil eines bestimmten Indikators in einer Region und q_i der kumulative Anteil. Da der Gini-Koeffizient des Pro-Kopf-BIP berechnet werden soll, ist p_i der Anteil der Bevölkerung jeder Provinz an der Gesamtbevölkerung, w_i der Anteil des BIP jeder Provinz am Gesamt-BIP und q_i der Anteil des kumulierten BIP sortiert nach BIP pro Kopf. Der spezifische Code lautet wie folgt:
Fügen Sie hier eine Bildbeschreibung ein
Der berechnete Gini-Koeffizient beträgt 0,2032725 (7 Dezimalstellen reservieren).
Fügen Sie hier eine Bildbeschreibung ein
3. Standardisieren Sie den Bereich der Handelsvariablen und weisen Sie ihn einer neuen Variablen zu
. Wie bei der vorherigen Frage liegt der Unterschied in der Formel im Nenner, der durch den Bereich des Maximalwerts minus dem Minimalwert ersetzt wird. Die spezifische Formel lautet:
Fügen Sie hier eine Bildbeschreibung ein
Fügen Sie hier eine Bildbeschreibung ein
Das Operationsergebnis lautet wie folgt:
Fügen Sie hier eine Bildbeschreibung ein

Guess you like

Origin blog.csdn.net/c6983127/article/details/129029583