Regresja logistyczna, zwana również modelem logitowym, jest wykorzystywana do wyświetlania dychotomicznych czynników wynikowych. W modelu logitowym, szanse logiczne na wynik są demonstrowane jako bezpośrednie połączenie zmiennych wskaźnikowych.

Ta strona wykorzystuje załączone pakiety. Upewnij się, że możesz je ułożyć na stosie przed próbą uruchomienia modeli na tej stronie. W przypadku, gdy nie masz wprowadzonego pakietu, uruchom: install.packages(“nazwa pakietu”), lub na wypadek, gdybyś zobaczył, że adaptacja jest nieaktualna, uruchom: update.packages().

library(aod)

biblioteka(ggplot2)

Informacja o wersji: Kod tej strony został przetestowany w wersji R 3.0.2 (2013-09-25)

Dnia: 2013-12-16

Z: dzianiną 1.5; gggplot2 0.9.3.1; aod 1.3

Jeśli nie jest to zbyt duża ilość problemów, uwaga: Powodem tej strony jest wskazanie najlepszego sposobu wykorzystania różnych kierunków badania informacji. Nie obejmuje ona wszystkich części procedury badawczej, na których opierają się specjaliści. W szczególności nie obejmuje ona czyszczenia i sprawdzania informacji, potwierdzania założeń, diagnostyki modelu i ewentualnych badań kontrolnych.

Modele

Model 1. Załóżmy, że zależy nam na elementach, które mają wpływ na to, czy polityczni awangardziści wygrają polityczną decyzję. Zmienna wyniku (reakcji) jest równoległa (0/1); wygraj lub przegraj. Czynnikami wskaźnikowymi premii są: miara gotówki wydanej na krucjatę, miara czasu spędzonego na walkach na niekorzyść oraz to, czy dany awanturnik jest urzędnikiem.

Model 2. Analitycy interesują się tym, w jaki sposób zmienne, na przykład GRE (wynik testu kwalifikującego absolwenta), GPA (punktacja normalna) i rozróżnienie fundacji licencjackiej, wpływają na wprowadzenie do szkoły wyższej. Zmienna reakcji, przyznawać/nie przyznawać, jest czynnikiem podwójnym.

Przedstawienie informacji

W celu uzyskania dalszych informacji, opracujemy Model 2 o dostaniu się do szkoły wyższej. Opracowaliśmy informacje teoretyczne, które można uzyskać z naszej strony z wnętrza R. Należy pamiętać, że R wymaga przednich plastrów (/), a nie ukośnych linii interpunkcyjnych () przy wskazywaniu obszaru zapisu niezależnie od tego, czy dokument znajduje się na dysku twardym.

mydata <- read.csv(“https://stats.idre.ucla.edu/stat/data/binary.csv”)

## obejrzeć kilka pierwszych rzędów danych

głowa (mydata)

## admit gre gpa rank

## 1 0 380 3.61 3

## 2 1 660 3.67 3

## 3 1 800 4.00 1

## 4 1 640 3.19 4

## 5 0 520 2.93 4

## 6 1 760 3.00 2

Ten zbiór danych ma sparowaną zmienną reakcji (wynik, podrzędna) zwaną concede. Istnieją trzy czynniki wskaźnikowe: gre, gpa i ranga. Czynniki gre i gpa będziemy traktować jako niekończące się. Zmienna pozycja przybiera cechy od 1 do 4. Organizacje o pozycji 1 mają najbardziej podwyższoną różnicę, a te o pozycji 4 najmniej. Możemy uzyskać podstawowe opisy dla całego zbioru informacji, korzystając ze streszczeń. Aby uzyskać odchylenia standardowe, używamy sapply do zastosowania wydajności sd do każdego czynnika w bazie danych.

streszczenie(mydata)

## admit gre gpa rank

## Min. :0.000 Min. :220 Min. :2.26 Min. :1.00

## 1st Qu.:0.000 1st Qu.:520 1st Qu.:3.13 1st Qu.:2.00

## Mediana :0.000 Mediana :580 Mediana :3.40 Mediana :2.00

## Średnia :0.318 Średnia :588 Średnia :3.39 Średnia :2.48

## 3rd Qu.:1.000 3rd Qu.:660 3rd Qu.:3.67 3rd Qu.:3.00

## Max. :1.000 Max. :800 Max. :4.00 Max. :4.00

sapply(mydata, sd)

## admit gre gpa rank

## 0.466 115.517 0.381 0.944

## dwukierunkowa tabela awaryjna kategorycznych wyników i przewidywań, których chcemy

## aby upewnić się, że nie ma 0 komórek

xtabs(~admit + ranga, dane = mydata)

## rankingu

## admit 1 2 3 4

## 0 28 97 93 55

## 1 33 54 28 12

Strategie egzaminacyjne, o których należy myśleć

Poniżej znajduje się podsumowanie niektórych strategii egzaminacyjnych, których być może doświadczyłeś. Część z tych strategii jest bardzo sensowna, podczas gdy inne albo zrezygnowały ze wsparcia, albo mają ograniczenia.

Obliczony nawrót, punkt centralny tej strony.

Prawdopodobny nawrót choroby. Badanie probitowe pozwoli na uzyskanie wyników w postaci porównywalnego nawrotu strategicznego. Decyzja o wyborze między testem probit a logitem zależy w dużym stopniu od pojedynczych skłonności.

Nawrót OLS. W momencie, gdy model ten jest wykorzystywany ze sparowaną zmienną reakcji, jest on znany jako bezpośredni pokaz prawdopodobieństwa i może być wykorzystany jako podejście do przedstawiania restrykcyjnych prawdopodobieństw. Niezależnie od tego błędy (tj. resztki) z modelu prawdopodobieństwa prostoliniowego niszczą homoskedastyczność i zwykłość błędnych podejrzeń o nawrót OLS, powodując nieważne błędy standardowe i testy teoretyczne. Stopniowo ostrożną wymianę tych i innych zagadnień z modelem prawdopodobieństwa bezpośredniego, zob. Long (1997, s. 38-40).

Dwugrupowe, dyskryminujące badanie pracy. Technika wieloczynnikowa dla dychotomicznych czynników wynikowych.

Hotelling’s T2. Wynik 0/1 jest przekształcany na zmienną zbiorczą, a poprzednie wskaźniki są przekształcane na czynniki wynikowe. Pozwoli to na przeprowadzenie ogólnej próby wyższości, jednak nie da jednostkowych współczynników dla każdego czynnika, a stopień, w jakim każdy “wskaźnik” jest zrównoważony dla efektu różnych “wskaźników”, jest obojętny.

Wykorzystanie modelu logitowego

Kod znajdujący się pod wskaźnikami określa model strategicznej odnowy wykorzystujący pracę wiązki (podsumowaną jako model prosty). Na początek zamieniamy rangę na czynnik pokazujący, że ranga powinna być traktowana jako zmienna jednoznaczna.

mydata$rank <- factor(mydata$rank)

mylogit <- glm(admit ~ gre + gpa + ranga, data = mydata, family = “binomial”)

Ponieważ nadaliśmy naszemu modelowi nazwę (mylogit), R nie da żadnego wyjścia z naszej regresji. W celu uzyskania wyników używamy komendy podsumowującej:

podsumowanie(mylogit)

##

## Call:

## glm(formuła = admit ~ gre + gpa + ranga, family = “binomial”,

## data = mydata)

##

## Odchylenie Resztki:

## Min 1Q Mediana 3Q Max

## -1.627 -0.866 -0.639 1.149 2.079

##

## Coefficients:

## Szacunkowa wartość Std. Błąd z wartością Pr(>|z|)

## (przechwytywanie) -3.98998 1.13995 -3.50 0.00047 ***

## gre 0.00226 0.00109 2.07 0.03847 *

## gpa 0.80404 0.33182 2.42 0.01539 *

## stopień 2 -0.67544 0.31649 -2.13 0.03283 *

## stopień 3 -1.34020 0.34531 -3.88 0.00010 ***

## stopień 4 -1,55146 0,41783 -3,71 0,00020 ***

## —

## Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1

##

## (Parametr dyspersji dla rodziny dwumianowych przyjmuje się jako 1)

##

## Null deviance: 499.98 na 399 stopni swobody

## Resztkowe odchylenie: 458.52 na 394 stopniach swobody

## AIC: 470.5

##

## Number of Fisher Scoring iterations: 4

W plonach najważniejsze, co widzimy, to wezwanie, to R przypominające nam, jaki był nasz model, jakie alternatywy wskazaliśmy i tak dalej.

Następnie widzimy resztki anomalii, które są częścią dopasowania modelu. Ta część plonu pokazuje rozpowszechnianie się reszt anomalii dla pojedynczych przypadków wykorzystanych w modelu. Poniżej omówiono sposób wykorzystania synopsów pomiaru anomalii do oceny dopasowania modelu.

Następna część wydajności pokazuje współczynniki, ich błędy standardowe, pomiar z (czasami nazywany Waldem z) i związane z nim wartości p-. Zarówno gre, jak i gpa są mierzone krytycznie, podobnie jak trzy terminy określające rangę. Wyliczone współczynniki powtarzalności dają korektę w logach szans na wynik o przyrost jednej jednostki w zmiennej wskaźnikowej.

Dla każdej zmiany jednej jednostki w gre, szanse logiczne na potwierdzenie (w porównaniu z brakiem potwierdzenia) wzrastają o 0,002.

Dla przyrostu jednej jednostki w gpa, dzienne szanse na przyznanie się do ukończenia szkoły wzrastają o 0.804.

Współczynniki znacznikowe dla rangi mają marginalnie nadzwyczajne wyjaśnienie. Dla przykładu, po przejściu do szkoły średniej o stopniu 2, w porównaniu z organizacją o stopniu 1, szanse na przyznanie się do szkoły średniej zmieniają się o – 0,675.

Pod tabelą współczynników znajdują się listy dopasowania, zawierające resztki nieważne i nieprawidłowe oraz AIC. W dalszej części przedstawiamy przypadek, w jaki sposób można wykorzystać te cechy, aby pomóc w dopasowaniu modelu badania.