Die logistische Regression, ebenfalls als Logit-Modell bezeichnet, wird verwendet, um dichotome Ergebnisfaktoren zu zeigen. Im Logit-Modell werden die logarithmischen Chancen des Ergebnisses als eine direkte Mischung der Indikatorvariablen dargestellt.
Diese Seite verwendet die begleitenden Bundles. Stellen Sie sicher, dass Sie sie stapeln können, bevor Sie versuchen, die Modelle auf dieser Seite auszuführen. Für den Fall, dass Sie kein Bundle eingeführt haben, führen Sie aus: install.packages(“Paketname”), oder für den Fall, dass Sie feststellen, dass die Anpassung veraltet ist, führen Sie aus: update.packages().
Bibliothek(aod)
Bibliothek(ggplot2)
Informationen zur Version: Der Code für diese Seite wurde in der R-Version 3.0.2 getestet (2013-09-25)
Am: 2013-12-16
Mit: knitr 1.5; ggplot2 0.9.3.1; aod 1.3
Wenn es nicht zu viel Mühe macht, beachten Sie: Der Grund für diese Seite ist es, den besten Weg aufzuzeigen, wie man die verschiedenen Prüfungsrichtungen der Informationen am besten nutzen kann. Sie deckt nicht alle Teile des Untersuchungsverfahrens ab, auf die sich Spezialisten verlassen können. Insbesondere deckt sie nicht die Reinigung und Überprüfung von Informationen, die Bestätigung von Vermutungen, die Modelldiagnostik und mögliche Folgeuntersuchungen ab.
Modelle
Modell 1. Nehmen wir an, dass wir uns mit den Komponenten beschäftigen, die sich darauf auswirken, ob ein politischer Aufsteiger eine politische Entscheidung gewinnt. Die Variable Ergebnis (Reaktion) ist parallel (0/1); Sieg oder Niederlage. Die Indikatorfaktoren der Prämie sind das Maß der für den Kreuzzug aufgewendeten Geldmittel, das Maß der Zeit, die für einen negativen Kampf aufgewendet wurde, und ob der Aufsteiger ein Amtsträger ist.
Modell 2. Ein Analytiker interessiert sich dafür, wie sich Variablen, z.B. GRE (Graduate Record Test Scores), GPA (Grade Point Normal) und die Unterscheidung der Undergraduate Foundation, auf die Aufnahme in die Graduiertenschule auswirken. Die Reaktionsvariable Zugestehen/nicht Zugestehen ist ein doppelter Faktor.
Darstellung der Informationen
Für unsere untenstehende Informationsrecherche werden wir Modell 2 über den Eintritt in die Graduiertenschule entwickeln. Wir haben theoretische Informationen erstellt, die von unserer Website aus dem Inneren von R abgerufen werden können. Beachten Sie, dass R vorwärts gerichtete Scheiben (/) erfordert, keine schrägen Satzzeichen (), während es einen Datensatzbereich angibt, unabhängig davon, ob sich das Dokument auf Ihrer Festplatte befindet.
mydata <- read.csv (“https://stats.idre.ucla.edu/stat/data/binary.csv”)
## die ersten paar Zeilen der Daten anzeigen
Kopf(mydata)
## gre gpa-rang zugeben
## 1 0 380 3.61 3
## 2 1 660 3.67 3
## 3 1 800 4.00 1
## 4 1 640 3.19 4
## 5 0 520 2.93 4
## 6 1 760 3.00 2
Dieser Datensatz hat eine gepaarte Reaktionsvariable (Ergebnis, untergeordnet) namens concede. Es gibt drei Indikatorfaktoren: gre, gpa und Rang. Wir werden die Faktoren gre und gpa als unaufhörlich behandeln. Die variable Position nimmt die Qualitäten 1 bis 4 an. Organisationen mit einer Position von 1 haben die höchste Auszeichnung, während Organisationen mit einer Position von 4 die geringste Auszeichnung haben. Wir können grundlegende Beschreibungen für die gesamte Informationssammlung erhalten, indem wir eine Synopse verwenden. Um die Standardabweichungen zu erhalten, verwenden wir sapply, um die sd-Kapazität auf jeden Faktor in der Datenbank anzuwenden.
Zusammenfassung(mydata)
## gre gpa-rang zugeben
## Min. :0.000 Min. :220 Min. :2.26 Min. :1.00
## 1. Qu.:0.000 1. Qu.:520 1. Qu.:3.13 1. Qu.:2.00
## Median :0.000 Median :580 Median :3.40 Median :2.00
## Mittelwert :0.318 Mittelwert :588 Mittelwert :3.39 Mittelwert :2.48
## 3. Qu.:1.000 3. Qu.:660 3. Qu.:3.67 3. Qu.:3.00
## Max. :1.000 Max. :800 Max. :4.00 Max. :4.00
sapply(mydata, sd)
## gre gpa-rang zugeben
## 0.466 115.517 0.381 0.944
## zweiseitige Kontingenztabelle der kategorischen Ergebnisse und Prädiktoren, die wir wollen
## um sicherzustellen, dass es keine 0-Zellen gibt
xtabs(~Zulassung + Rang, Daten = Mydaten)
## Rang
## zugeben 1 2 3 4
## 0 28 97 93 55
## 1 33 54 28 12
Prüfungsstrategien, über die Sie nachdenken sollten
Im Folgenden finden Sie einen Überblick über einige Prüfungsstrategien, die Sie vielleicht schon erlebt haben. Ein Teil der aufgezeichneten Strategien ist sehr sinnvoll, während andere entweder aus der Unterstützung herausgefallen sind oder Einschränkungen haben.
Berechnetes Rezidiv, der Schwerpunkt dieser Seite.
Probitrezidiv. Die Probit-Untersuchung wird zu Ergebnissen in einem vergleichbaren strategischen Rückfall führen. Die Entscheidung zwischen Probit und Logit hängt in hohem Maße von einzelnen Neigungen ab.
OLS-Rückfall. Wenn dieses Modell mit einer gepaarten Reaktionsvariablen verwendet wird, ist es als Straight-Likelihood-Show bekannt und kann als Ansatz zur Darstellung restriktiver Wahrscheinlichkeiten verwendet werden. Ungeachtet dessen schädigen die Fehler (d.h. Residuen) des Straight-Likelihood-Modells die Homoskedastizität und die Gewöhnlichkeit des Verdachts auf einen OLS-Rückfall und führen zu ungültigen Standardfehlern und Theorietests. Für einen allmählich sorgfältigen Austausch dieser und anderer Fragen mit dem direkten Wahrscheinlichkeitsmodell siehe Long (1997, S. 38-40).
Zwei-Bündel-Prüfung für diskriminierende Arbeit. Eine multivariate Technik für dichotome Ergebnisfaktoren.
Hotelling ist T2. Das Ergebnis 0/1 wird in die Sammelvariable transformiert, und die vorhergehenden Indikatoren werden in Ergebnisfaktoren transformiert. Dies liefert einen allgemeinen Versuch der Größenordnung, liefert jedoch nicht für jeden Faktor singuläre Koeffizienten, und es ist unklar, inwieweit jeder “Indikator” in Bezug auf die Wirkung der verschiedenen “Indikatoren” ausgewogen ist.
Verwendung des Logit-Modells
Der Code darunter misst ein strategisches Rückfallmodell unter Verwendung der glm-Arbeit (summiertes gerades Modell). Zu Beginn konvertieren wir den Rang in einen Faktor, um zu zeigen, dass der Rang als eine eindeutige Variable behandelt werden sollte.
mydata$Rang <- Faktor(mydata$Rang)
mylogit <- glm(zugeben ~ gre + gpa + Rang, Daten = Mydaten, Familie = “Binomial”)
Da wir unserem Modell einen Namen gegeben haben (Mylogit), wird R keinen Output aus unserer Regression erzeugen. Um die Ergebnisse zu erhalten, verwenden wir den Befehl summary:
Zusammenfassung(mylogit)
##
## Anruf:
## glm(formula = zugeben ~ gre + gpa + Rang, Familie = “binomisch”,
## Daten = Mydaten)
##
## Abweichungsreste:
## Min 1Q Median 3Q Max
## -1.627 -0.866 -0.639 1.149 2.079
##
## Koeffizienten:
## Schätzung Std. Fehler z-Wert Pr(>|z|)
## (Abfangen) -3.98998 1.13995 -3.50 0.00047 ***
## gre 0.00226 0.00109 2.07 0.03847 *
## gpa 0.80404 0.33182 2.42 0.01539 *
## Rang2 -0,67544 0,31649 -2,13 0,03283 *
## Rang3 -1.34020 0.34531 -3.88 0.00010 ***
## Rang4 -1.55146 0.41783 -3.71 0.00020 ***
## —
## Signifikante Codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ ‘ 1
##
## (Dispersionsparameter für Binomialfamilie als 1 angenommen)
##
## Null-Abweichung: 499,98 auf 399 Freiheitsgrade
## Restliche Abweichung: 458,52 auf 394 Freiheitsgrade
## AIC: 470,5
##
## Anzahl der Iterationen des Fisher Scoring: 4
Im Yield over sehen wir vor allem den Aufruf, das ist R, der uns daran erinnert, welches Modell wir gefahren sind, welche Alternativen wir aufgezeigt haben und so weiter.
Als nächstes sehen wir die Abnormalitätsresiduen, die einen Teil der Modellanpassung ausmachen. Dieses Ertragsstück zeigt die Verbreitung der Anomalie-Residuen für die im Modell verwendeten Einzelfälle. Im Folgenden sprechen wir darüber, wie Synopsen der Messung der Anomalie zur Bewertung der Modellanpassung verwendet werden können.
Das folgende Stück der Ausbeute zeigt die Koeffizienten, ihre Standardfehler, die z-Messung (manchmal Wald z-Messung genannt) und die zugehörigen p-Werte. Sowohl gre als auch gpa sind messbar kritisch, ähnlich wie die drei Begriffe für den Rang. Die berechneten Rückfallkoeffizienten geben die Anpassung der logarithmischen Chancen des Ergebnisses für eine Zunahme der Indikatorvariablen um eine Einheit an.
Für jede Änderung in gre um eine Einheit erhöht sich die logarithmische Wahrscheinlichkeit einer Bestätigung (im Gegensatz zur Nicht-Bestätigung) um 0,002.
Bei einem Anstieg des gpa um eine Einheit erhöht sich die logarithmische Wahrscheinlichkeit, zu einem Schulabschluss zugelassen zu werden, um 0,804.
Die Markerfaktoren für den Rang haben eine geringfügig außergewöhnliche Aufhellung. Wenn man z.B. eine Einrichtung mit Rang 2 gegenüber einer Organisation mit Rang 1 besucht hat, ändert sich die logarithmische Wahrscheinlichkeit einer Bestätigung um – 0,675.
Unterhalb der Koeffiziententabelle befinden sich Fit-Listen, einschließlich der ungültigen und abnormalen Residuen und der AIC. Später zeigen wir ein Beispiel dafür, wie Sie diese Eigenschaften nutzen können, um die Anpassung des Umfragemodells zu unterstützen.