Saturday 25 March 2017

Merge Beobachtungen In Stata Forex

HINWEIS: Die IDRE Statistical Consulting Group wird im Februar die Website auf das WordPress CMS migrieren, um die Wartung und die Erstellung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, Redirects beizubehalten, damit die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group mit einem Geschenk Stata Learning Modul Daten kombinieren Dieses Modul veranschaulicht, wie Sie Dateien in Stata kombinieren können. Beispiele umfassen angehängte Dateien, Eins-zu-Eins-Zusammenführung und Eins-zu-Eins-Zuordnung. Anhängen von Datendateien Wenn Sie zwei Datendateien haben, können Sie sie durch Stapeln übereinander kombinieren. Zum Beispiel haben wir eine Datei, die Väter und eine Datei enthält, die Mütter enthält, wie unten gezeigt. Wenn wir diese Dateien kombinieren wollten, indem wir sie aufeinander stapeln, können wir den Befehl append wie unten gezeigt verwenden. Wir können den Listenbefehl verwenden, um zu sehen, ob das korrekt funktionierte. Der Append funktionierte richtig. Die Väter und Mütter sind zusammen in einer Datei gestapelt. Aber es gibt ein kleines Problem. Wir können nicht sagen, die Väter von den Müttern. Lets versuchen, dies wieder tun, aber zuerst werden wir eine Variable namens momdad in der Väter und Mütter Datendatei, die Papa für die Dads-Datei und Mama für die Moms-Datei enthalten wird. Wenn wir die beiden Dateien zusammen kombinieren, wird die Momdad-Variable uns sagen, wer die Mütter und Väter sind. Hier machen wir momdad Variable für die Dads-Datei. Wir speichern die Datei mit dem Namen dads1. Hier machen wir momdad Variable für die Moms-Datei. Wir speichern die Datei, die es moms1 nennt. Nun können wir dads1 und moms1 zusammenfügen. Nun, wenn wir die Daten die momdad Variable zeigt, wer die Mütter und Väter sind. Match-Merging Eine weitere Möglichkeit, Daten-Dateien zu kombinieren, ist Match-Merging. Sagen wir, dass wir die Väter mit der faminc-Datendatei kombinieren wollten, die die Väterinformation und die Familieninformationen nebeneinander hatten. Wir können dies mit einem Spiel zusammenführen. Werfen wir einen Blick auf die Väter und faminc Datei. Wir wollen die Datendateien so kombinieren, dass sie so aussehen. Beachten Sie, dass die famid-Variable verwendet wird, um die Beobachtung aus der Väter-Datei mit der entsprechenden Beobachtung aus der faminc-Datei zu verknüpfen. Die Strategie für das Zusammenführen der Dateien geht so. 1. sortieren Sie Väter auf famid und speichern Sie diese Akte (benennen es dads2). 2. sort faminc auf famid und speichern Sie diese Datei (aufrufend faminc2). 3. Verwenden Sie die Datei dads2. 4. Fügen Sie die Datei dads2 mit der faminc2-Datei zusammen, um sie mit famid zu vergleichen. Hier sind die vier Schritte. 1. Sortieren Sie die Dads-Datei von famid und speichern Sie es als dads2 2. Sortieren Sie die faminc-Datei von famid und speichern Sie es als faminc2. 3. Verwenden Sie die Datei dads2 4. Zusammenführen mit der faminc2-Datei mit famid als Schlüsselvariable. Es scheint, wie dies funktionierte just fine, aber was ist, dass Merge-Variable Die Merge-Variable zeigt für jede Beobachtung, wie das Merge ging. Dies ist nützlich, um nicht übereinstimmende Datensätze zu identifizieren. Merge kann einen von drei Werten haben 1 - Der Datensatz enthält nur Informationen aus file1 (zB einen dad2 Datensatz ohne entsprechenden faminc2 Datensatz) 2 - Der Datensatz enthält nur Informationen aus file2 (zB einen faminc2 Datensatz ohne entsprechenden dad2 Datensatz Datensatz enthält Informationen aus beiden Dateien (zB die dad2 und faminc2 Datensätze nach oben zusammengestellt) Wenn Sie viele Datensätze haben, ist tabellarische Zusammenführung sehr nützlich, um zusammenzufassen, wie viele nicht übereinstimmenden haben Sie in unserem Fall alle Datensätze so den Wert für Merge War immer 3. Eins-zu-vielen Match-Merging Eine andere Art von Merge wird als eine zu viele Merge. Unsere eins zu eins zusammengeführt passte bis Väter und faminc und es gab eine Eins-zu-eins Matching der Dateien. Wenn wir Völker zusammenführen Wie Sie unten sehen, ist die Strategie für die eine zu vielen zusammenzuarbeiten, ist wirklich die gleiche wie die zu eins zu verschmelzen 1. sortieren Väter auf famid und Speichern Sie die Datei als dads3 2. sortieren Kinder auf famid und speichern Sie diese Datei als kids3 3. verwenden Sie die Datei dads3 4. fusionieren Sie die Datei dads3 mit der Datei kids3 mit famid, um sie zu entsprechen. Die 4 Schritte sind unten gezeigt. 1. Sortieren Sie die Dads-Datei auf famid und speichern Sie diese Datei als dads3. 2. Sortieren Sie die Kinder-Datendatei auf famid und speichern Sie diese Datei als kids3. 3. Verwenden Sie die Datei dads3. 4. Fügen Sie die Datei dads3 mit der Datei kids3 unter Verwendung von famid zusammen, um sie anzupassen. Lässt Liste der Ergebnisse. Die Ergebnisse sind ein bisschen leichter zu lesen, wenn wir die Daten zu famid und Geburt sortieren. Wie Sie sehen, ist dies im Grunde das gleiche wie ein eins zu eins Merge. Sie können sich fragen, ob die Reihenfolge der Dateien auf der Merge-Anweisung relevant ist. Hier wechseln wir die Reihenfolge der Dateien und die Ergebnisse sind die gleichen. Der einzige Unterschied ist die Reihenfolge der Datensätze nach dem Zusammenführen. Anfügen von Datenbeispiel Zusammenführen von Beispielschritten (Eins-zu-Eins - und Eins-zu-Viele) Zusammenführungsbeispielprogramm Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt von der Website angesehen werden University of California. NOTICE: Die IDRE Statistical Consulting Group wird die Migration der Website auf die WordPress CMS im Februar, um die Wartung und die Schaffung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, Redirects beizubehalten, damit die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group, indem Sie ein Geschenk geben Stata FAQ: Wie kann ich mehrere Dateien in Stata zusammenführen Diese FAQ basiert auf einer Seite, die vom Graduate Statistical Assistant Program an der Boston College entwickelt wurde. Wir bedanken uns für ihre Erlaubnis, diese FAQ hier zu reproduzieren. Es ist nicht ungewöhnlich, dass Daten, insbesondere Umfragedaten, in mehrere Datensätze kommen (es gibt praktische Gründe für die Verteilung von Datensätzen auf diese Weise). Wenn Daten in mehreren Dateien verteilt werden, werden die Variablen, die Sie verwenden möchten, oft über mehrere Datensätze verteilt. Um mit in zwei oder mehreren Datendateien enthaltenen Informationen zu arbeiten, müssen die Segmente in eine neue Datei zusammengefasst werden, die alle Variablen enthält, mit denen Sie arbeiten möchten. Zuerst müssen Sie herausfinden, welche Variablen Sie benötigen und welche Datensätze sie enthalten, können Sie dies tun, indem Sie das Codebuch. Zusätzlich zum Finden der Variablen, die Sie für Ihre Analyse benötigen, müssen Sie den Namen der Variablen id kennen. Eine id-Variable ist eine Variable, die für einen Fall (Beobachtung) im Dataset eindeutig ist. Für ein bestimmtes Individuum sollte die ID über alle Datensätze gleich sein. Dadurch können Sie die Daten aus verschiedenen Datensätzen an die richtige Person passen. Für Querschnittsdaten ist dies typischerweise eine einzige Variable, in anderen Fällen werden zwei oder mehr Variablen benötigt, dies wird allgemein in Felddaten gesehen, wo die Subjekt-ID und das Datum oder die Welle häufig benötigt werden, um eine Beobachtung eindeutig zu identifizieren. Damit Stata die Datensätze zusammenführt, müssen die Variable id oder die Variablen denselben Namen über alle Dateien haben. Wenn es sich bei der Variablen um einen String in einem Datensatz handelt, muss er auch ein String in allen anderen Datasets sein und dasselbe gilt für numerische Variablen (der spezifische Speichertyp ist nicht wichtig, solange er numerisch ist). Sobald Sie alle Variablen identifiziert haben, die Sie benötigen und wissen, was die Variable id (s) sind, können Sie beginnen, die Datensätze zusammenzuführen. Ein einfaches Beispiel Ein guter erster Schritt ist, unsere Daten zu beschreiben. Wir können dies tun, ohne tatsächlich öffnen Datei (dies kann praktisch sein, wenn die Dateien sehr groß sind), alles, was wir tun müssen, ist offen Stata und den Befehl ausgeben. Der Beschreibungsbefehl gibt uns eine Menge nützlicher Informationen, für unsere Zwecke die wichtigsten Dinge, die es zeigt, ist, dass die Variable id numerisch ist und dass die Daten unsortiert sind (die Daten müssen nach der Variablen oder Variablen sortiert werden, um zusammenzuführen ). Wir bemerken auch, dass die Variablen, die wir aus diesem Datensatz benötigen, tatsächlich im Datensatz sind. Wir würden dies für alle drei unserer Datensätze tun wollen, aber um Platz zu sparen nur die Ausgabe für einen der Datensätze. Nehmen wir an, dass die Datasets alle unsortiert sind und dass die Variable id in allen drei Datasets denselben Namen (id) hat. Da die Datensätze arent sortiert sind, müssen wir jeden Datensatz öffnen, sortieren und dann das sortierte Dataset speichern. Obwohl wir die Daten von einer Website leicht innerhalb von Stata verwenden können, können wir es dort nicht speichern. Beachten Sie, dass alle Benutzungsbefehle Datensätze von unserer Website abrufen, aber in das Verzeichnis d: Daten auf dem Benutzercomputer speichern. Die folgende Syntax öffnet jeden Dataset, sortiert ihn nach der ID und speichert ihn an einem neuen Speicherort mit einem neuen Namen. Wenn der Dataset bereits auf unserem Computer war, konnten wir ihn am selben Ort speichern und eventuell sogar unter demselben Namen (beim Ersetzen des alten Datasets), das ist die Benutzerwahl. Als nächstes werden die Datensätze zusammengeführt. Der Merge-Befehl fügt entsprechende Beobachtungen aus dem aktuell im Speicher befindlichen Datensatz (genannt Master-Dataset) mit denen aus einem anderen Stata-Format-Dataset (die als Dataset bezeichnet wird) in einzelne Beobachtungen zusammen. Unter der Annahme, dass wir Data3 offen haben, aus der Ausführung der obigen Syntax, wird das unser Stamm-Dataset sein. Die erste Zeile der Syntax unten vereinigt die Daten. Direkt nach dem Merge-Befehl ist der Name der Variable (oder Variablen), die id-Variablen, in diesem Fall id. Als nächstes wird das Argument mit diesem sagt Stata, dass wir mit der Auflistung der ID-Variablen, und dass das, was folgt, sind die Datensätze zusammengeführt werden. Die Namen werden mit nur Leerzeichen (keine Kommas usw.) zwischen ihnen aufgelistet. (Beachten Sie, wenn die Namen oder Pfade Ihrer Datasets Leerzeichen enthalten, achten Sie darauf, sie in Anführungszeichen einzufügen, d. H.). Die nächste Syntaxzeile speichert unsere neue zusammengeführte Datenmenge. Beachten Sie, dass merge keine Ausgabe produziert. Nun können wir unseren neu zusammengeführten Datensatz ansehen. In der obigen Ausgabe sehen wir die Zahl der Fälle (200), die korrekt ist. Dies ist wichtig, da Probleme mit dem Zusammenführungsprozeß oft zu wenige oder häufig zu viele Fälle im zusammengeführten Datensatz führen. Wir sehen auch eine Liste der Variablen, die alle Variablen enthält, die wir wollen. Der zusammengeführte Datensatz enthält drei zusätzliche Variablen. Diese neuen Variablen werden zusammengeführt. Merge1 und merge2. Der Befehl merge erzeugt immer mindestens eine zusätzliche Variable namens merge. Wenn mehrere Dateien bei der Verwendung angegeben werden. Erzeugt das Kommando zusätzliche Merge-Variablen, eine für jeden der Datasets in der Verwendungsliste (in unserem Fall Merge1 und Merge2). Diese Variablen geben an, wo jede Beobachtung im Dataset gekommen ist. Dies ist nützlich, um sicherzustellen, dass Ihre Daten ordnungsgemäß zusammengeführt werden. Manchmal wird eine Beobachtung nicht in einem gegebenen Datensatz vorhanden sein, dies bedeutet nicht unbedingt, dass etwas im Merge-Prozess schief gelaufen ist, aber dies ist ein anderer Ort, wo man oft Hinweise bekommen kann, was möglicherweise falsch gelaufen im Merge-Prozess. Da in diesem Beispiel alle Datensätze alle Fälle enthalten und weil die Zusammenführung so verläuft, wie es sollte, sind die Zusammenführungsvariablen sehr interessant. Wir werden diese Variablen im Folgenden näher erläutern, wenn wir mit Datensätzen umgehen, in denen nicht alle Fälle in allen Datensätzen vorhanden sind. Unerwünschte Variablen löschen Es ist nicht ungewöhnlich, dass ein großer Dataset viele Variablen enthält, die Sie in Ihrer Analyse nicht verwenden werden. Sie können diese Variablen in Ihren Datensätzen nur verlassen, wenn Sie sie zusammen, aber es gibt mehrere Gründe, die Sie nicht wollen, dies zu tun. Erstens gibt es eine Grenze für die Anzahl der Variablen, die Stata behandeln kann. In Small Stata ist das Limit 99, in StataIC ist das Limit 2,047 und in StataSE und StataMP ist das Limit 32.767. Diese Grenzwerte sehen möglicherweise hoch, aber wenn Sie mehrere Datensätze zusammenführen, jede mit einer großen Anzahl von Variablen, können Sie die Grenze für Ihre Art von Stata überschreiten. Der zweite Grund, warum Sie nicht überflüssige Variablen in Ihrem Dataset verlassen möchten, ist, dass jede Variable im Speicher zusätzliche Systemressourcen verwendet. Ein paar zusätzliche Variablen wird nicht alles verletzen, aber wenn Sie eine große Anzahl von unerwünschten Variablen haben, können Sie verschwenden Systemressourcen. Im Folgenden zeigen wir einige Methoden, um zusätzliche Variablen zu eliminieren. Eine Option ist, dass, wenn Sie die Datasets öffnen, um sie zu sortieren, können Sie auch die Variablen, die Sie nicht planen, zu verwenden. Abhängig davon, ob es einfacher ist, die Variablen aufzulisten, die Sie in Ihrer Analyse verwenden möchten, oder um die Variablen aufzulisten, die Sie nicht benötigen, können Sie die Befehle halten oder löschen. Es gibt mindestens eine zusätzliche Option, können Sie die Datasets, die nur die Variablen, die Sie im Speicher benötigen. Wenn ich einen Datensatz mit einer Anzahl von Variablen, aber die einzigen Variablen, die ich brauche von ihm sind id und lesen. Ich kann Variablennamen zu meinem Befehl verwenden, wie in der ersten Zeile der Syntax unten gezeigt. Dies ist besonders nützlich bei sehr großen Dateien, die viel Speicher erfordern. Sobald Sie die gewünschte Teilmenge von Variablen geöffnet haben, müssen Sie nur die Teilmenge der Daten unter einem neuen Namen speichern. Im obigen Beispiel enthielt dataset2 die folgenden Variablen: id, read, write, math, science und socst. Angenommen, meine Analyse erfordert nur die Variablen lesen und schreiben. Sind die einzigen Variablen aus dataset2, die benötigt werden, jene zwei und die Variable id, um die Daten mit einem anderen Datensatz zusammenzuführen. Nachfolgend sind Beispiele der gleichen Art der oben beschriebenen Datenherstellung unter Verwendung jeder der beschriebenen Techniken beschrieben. Diese Techniken sind äquivalent, indem sie das gleiche Endergebnis erzeugen. Die Effizienz jeder Technik variiert je nach Situation. Verwenden von Keep, um Variablen auszuwählen: Verwenden von Drop, um unerwünschte Variablen zu entfernen: Öffnen einer Untermenge der Daten: Die Merge-Variablen Die Merge-Variablen, die durch den Merge-Befehl erstellt werden, sind einfach zu übersehen, sind aber sehr wichtig. Wie oben besprochen, geben sie an, aus welchen Dataset (s) jeder Fall stammt. Dies ist wichtig, da viele Werte, die nur aus einem Datensatz stammten, auf ein Problem im Zusammenführungsprozess hindeuten könnten. Allerdings ist es nicht ungewöhnlich für einige Fälle in einem Datensatz, aber nicht anders sein. In Panel-Daten kann dies auftreten, wenn eine bestimmte Befragte nicht in allen Wellen der Studie teilnehmen. Es kann auch für eine Reihe von anderen Gründen auftreten. Beispielsweise könnte ein weiblicher Befragter in der Teilmenge der Daten mit demographischen Informationen erscheinen, aber vollständig aus der Teilmenge von Daten mit Informationen über weibliche Befragte Kinder fehlen, da sie keine Kinder hat. Da Fälle, die nicht in allen Datasets vorhanden sind, nicht unbedingt ein Problem darstellen, damit die Informationen in Merge-Variablen nützlich sein können, müssen Sie wissen, was zu erwarten ist, wenn die Datasets ordnungsgemäß zusammengeführt werden. In dem obigen Beispiel, in dem die gleichen 200 Fälle in drei Datensätzen auftauchte, würde ich erwarten, 200 Fälle zu sehen, die alle aus allen drei der Datensätze stammten. Wenn es einige Fälle gibt, die von einigen der Datensätze fehlen, dann würde ich erwarten, eine bestimmte Anzahl von Fällen zu sehen, die nicht von allen Datasets kommen, aber ich muss noch sicherstellen, dass es arent zu viele gibt, die von nur einigen kommen Datensätzen. Wenn Sie zu viele oder alle der Fälle in Ihrem zusammengeführten Datenbestand haben, kommen Sie von einem oder nur einigen der Datensätze, die Sie zusammengeführt haben, ein Zeichen, dass die Variable id nicht korrekt über Datensätze passt. Dies ist besonders häufig, wenn die Variable id ein String ist. Im Folgenden untersuchen wir einen Datensatz nach dem Zusammenführen zu sehen, ob alle wie erwartet. Die Ausgabe unten zeigt die Datei für einen Datensatz data1m. dta, wenn wir die Anzahl der Beobachtungen betrachten (obs) sehen wir, dass der Datensatz nur 197 Fälle enthält, aber wir wissen, dass die Studie insgesamt 200 Fälle umfasste, so dass wir das wissen Sind drei Fälle fehlen vollständig aus data1m. Dies ist wichtig, wenn wir die Zusammenführungsvariablen später richtig interpretieren werden. Schließlich sortieren wir die Daten und speichern sie unter einem neuen Namen. Um Platz zu sparen, zeigen wir nicht die Ausgabe für die beiden anderen Datensätze (der Code erscheint unten, falls Sie es ausführen möchten). Nehmen wir an, dass, wenn wir auf data2m und data3m beschreiben, dass sie auch fehlende Fälle sind. Dataset data2m enthält 196 Beobachtungen, und dataset3m enthält 197. Es ist möglich, dass einige dieser Fälle aus allen drei Datensätzen fehlen (dh die fehlenden Beobachtungen überschneiden sich über Datensätze), es ist aber auch möglich, dass alle 200 Beobachtungen in mindestens einem der beiden Datensätze auftreten Datensätzen. Wir werden herausfinden, sobald wir die Daten zusammenführen. Sobald wir die Datensätze untersucht und sortiert haben, können wir sie zusammenführen. Die Syntax unten ist dies, beachten Sie, dass der Befehl ist die gleiche wie im ersten Beispiel. Standardmäßig erlaubt Stata, dass Fälle aus einem der drei Datensätze kommen. Es gibt Optionen, mit denen Sie steuern können, welche Datasets die Fälle kommen, können Sie über sie durch die Eingabe von help merge (ohne die Anführungszeichen) in Stata herausfinden. Wie zuvor fügte der Merge-Befehl drei neue Variablen zusammen. Merge1. Und merge2. Die Variable merge gibt Auskunft darüber, welche Fälle im Master-Dataset vorhanden waren, sie nimmt einen von drei Werten an: Die Beobachtung ist nur im Master-Dataset vorhanden


No comments:

Post a Comment