Logistieke regressie, ook wel logit-model genoemd, wordt gebruikt om dichotomische resultaatfactoren te laten zien. In het logit-model wordt de logkans van het resultaat gedemonstreerd als een directe mix van de indicatorvariabelen.

Deze pagina maakt gebruik van de bijbehorende bundels. Zorg ervoor dat u deze kunt stapelen voordat u probeert de modellen op deze pagina uit te voeren. In het geval dat u geen bundel heeft geïntroduceerd, voer dan uit: install.packages(“package name”), of op het moment dat u ziet dat de aanpassing verouderd is, voer uit: update.packages().

bibliotheek(aod)

bibliotheek (ggplot2)

Versie-informatie: Code voor deze pagina is getest in R versie 3.0.2 (2013-09-25)

Op: 2013-12-16

Met: breiwerk 1.5; ggplot2 0.9.3.1; aod 1.3

Als het niet te veel moeite is opmerking: De reden voor deze pagina is om te vertellen wat de beste manier is om verschillende informatie onderzoek richtingen te gebruiken. Het gaat niet over alle onderdelen van de onderzoeksprocedure die specialisten moeten uitvoeren. In het bijzonder gaat het niet over het schoonmaken en controleren van informatie, bevestiging van vermoedens, modeldiagnostiek en mogelijke vervolgonderzoeken.

Modellen

Model 1. Ga ervan uit dat we geïnteresseerd zijn in de componenten die van invloed zijn op de vraag of een politieke topman een politieke beslissing wint. De resultaat (reactie) variabele is parallel (0/1); winnen of verliezen. De indicator premiefactoren zijn de maatstaf voor het geld dat aan de kruistocht wordt besteed, de maatstaf voor de tijd die wordt besteed aan een negatieve strijd en de vraag of de oprichter een kantoorhouder is.

Model 2. Een analist is scherp op hoe variabelen, bijvoorbeeld, GRE (Graduate Record Test scores), GPA (grade point normal) en onderscheid van de undergrad foundation, impact inductie in de graduate school. De reactievariabele, toegeven/niet toegeven, is een dubbele factor.

Depictie van de informatie

Voor ons informatieonderzoek hieronder zullen we Model 2 ontwikkelen over het instappen in de graduate school. We hebben theoretische informatie geproduceerd, die kan worden verkregen van onze site van binnenuit R. Merk op dat R vereist forward slices (/), niet schuine interpunctie lijnen (), terwijl het aangeven van een record gebied, ongeacht of het document is op uw harde schijf.

mydata <- lees.csv(“https://stats.idre.ucla.edu/stat/data/binary.csv”)

## bekijk de eerste paar rijen van de gegevens

hoofd (mydata)

## geef de rang van gre gpa toe

## 1 0 380 3.61 3

## 2 1 660 3.67 3

## 3 1 800 4.00 1

## 4 1 640 3.19 4

## 5 0 520 2.93 4

## 6 1 760 3.00 2

Deze dataset heeft een gepaarde reactie (resultaat, ondergeschikte) variabele genaamd concede. Er zijn drie indicatorfactoren: gre, gpa en rang. We behandelen de factoren gre en gpa als onophoudelijk. De variabele positie neemt de kwaliteiten 1 tot en met 4 aan. Organisaties met een positie van 1 hebben het hoogste onderscheid, terwijl organisaties met een positie van 4 het minste onderscheid hebben. We kunnen fundamentele beschrijvingen krijgen voor de hele informatieverzameling door gebruik te maken van synopsis. Om de standaardafwijkingen te krijgen, gebruiken we sd capaciteit toe te passen op elke factor in de datase

samenvatting (mydata)

## geef de rang van gre gpa toe

## Min. :0.000 Min. :220 Min. :2.26 Min. :1.00

## 1st Qu.:0.000 1st Qu.:520 1st Qu.:3.13 1st Qu.:2.00

## Mediaan :0.000 Mediaan :580 Mediaan :3.40 Mediaan :2.00

## Gemiddeld :0.318 Gemiddeld :588 Gemiddeld :3.39 Gemiddeld :2.48

## 3e kw.:1.000 3e kw.:660 3e kw.:3,67 3e kw.:3,00

## Max. :1.000 Max. :800 Max. :4.00 Max. :4.00

sapply(mydata, sd)

## geef de rang van gre gpa toe

## 0.466 115.517 0.381 0.944

## twee-weg contingency tabel van categorische uitkomst en voorspellers die we willen

## om er zeker van te zijn dat er geen 0 cellen zijn

xtabs(~toelating + rang, gegevens = mydata)

## rang

## geef 1 2 3 4 toe

## 0 28 97 93 55

## 1 33 54 28 12

Onderzoeksstrategieën waar je aan moet denken

Hieronder volgt een overzicht van enkele onderzoeksstrategieën die u mogelijk hebt ervaren. Een deel van de geregistreerde strategieën is zeer verstandig, terwijl andere ofwel uit de steun zijn gevallen of beperkingen hebben.

Berekende terugval, het middelpunt van deze pagina.

Probit terugval. Probit onderzoek zal resulteren in een vergelijkbare strategische terugval. De beslissing van probit versus logit hangt voor een groot deel af van enkelvoudige neigingen.

OLS terugval. Op het moment dat dit model wordt gebruikt met een gepaarde reactievariabele, staat het bekend als een straight likelihood show en kan het worden gebruikt als een benadering om restrictieve waarschijnlijkheden weer te geven. Desondanks beschadigen de fouten (d.w.z. residuen) van het rechte waarschijnlijkheidsmodel de homoskedasticiteit en de alledaagsheid van blunders verdenkingen van OLS-terugval, waardoor ongeldige standaardblunders en theoretische tests ontstaan. Voor een geleidelijke zorgvuldige uitwisseling van deze en andere zaken met het directe waarschijnlijkheidsmodel, zie Long (1997, p. 38-40).

Tweebundelig discriminerend werkonderzoek. Een multivariate techniek voor dichotome resultaatfactoren.

Hotelling’s T2. Het 0/1 resultaat wordt omgezet in de verzamelvariabele, en de voorgaande indicatoren worden omgezet in resultaatfactoren. Dit zal een algemene proef van hugeness opleveren, maar zal geen enkelvoudige coëfficiënten geven voor elke factor, en het is onduidelijk in welke mate elke “indicator” in evenwicht is voor het effect van verschillende “indicatoren”.

Door gebruik te maken van het logit model

De code onder de meter geeft een strategisch terugvalmodel aan met behulp van het glm (samengevat recht model) werk. Om te beginnen converteren we rang naar een factor om aan te tonen dat rang als een duidelijke snijvariabele moet worden behandeld.

mydata$rank <- factor (mydata$rank)

mylogit <- glm(geef toe ~ gre + gpa + rang, data = mydata, familie = “binomiaal”)

Aangezien we ons model een naam hebben gegeven (mylogit), zal R geen output produceren van onze regressie. Om de resultaten te krijgen gebruiken we het overzichtscommando:

samenvatting (mylogit)

##

## Call:

## glm(formule = toegeven ~ gre + gpa + rang, familie = “binomiaal”,

## data = mydata)

##

## Deviance Residuals:

## Min. 1Q. Mediane 3Q. Max.

## -1.627 -0.866 -0.639 1.149 2.079

##

## Coëfficiënten:

## Schat Std. Error z waarde Pr(>|z|)

## (Onderschepping) -3.98998 1.13995 -3.50 0.00047 ***

## gre 0.00226 0.00109 2.07 0.03847 *

## gpa 0,80404 0,33182 2,42 0,01539 *

## rank2 -0,67544 0,31649 -2,13 0,03283 *

## rank3 -1.34020 0.34531 -3.88 0.00010 ***

## rank4 -1.55146 0.41783 -3.71 0.00020 ***

## —

## Signif. codes: 0 ‘***’ 0,001 ‘**’ 0,01 ‘*’ 0,05 “.” 0,1 ‘ ‘ 1

##

## (Dispersion parameter voor binomiale familie genomen om 1 te zijn)

##

## Null deviance: 499,98 op 399 vrijheidsgraden

## Resterende afwijking: 458,52 op 394 vrijheidsgraden

## AIC: 470,5

##

## Aantal Fisher Scoring iteraties: 4

In de oogsttijd is het belangrijkste wat we zien de oproep, dit is R die ons eraan herinnert wat het model is dat we hebben gerund, welke alternatieven we hebben aangegeven, enzovoort.

Vervolgens zien we de abnormale restanten, die een deel van het model passen. Dit stukje opbrengst toont de verspreiding van de abnormale residu’s voor singuliere gevallen die in het model worden gebruikt. Hieronder bespreken we hoe we synopses van de abnormaliteitsmeting kunnen gebruiken om de model fit te evalueren.

Het volgende stuk van de opbrengst toont de coëfficiënten, hun standaard fouten, de z-meting (soms een Wald z-meting genoemd), en de bijbehorende p-waarden. Zowel gre als gpa zijn meetbaar kritisch, vergelijkbaar met de drie termen voor rangorde. De berekende terugvalcoëfficiënten geven de aanpassing in de logkans van het resultaat voor een toename van één eenheid in de indicatorvariabele.

Voor elke verandering van één eenheid in gre neemt de logkans op bevestiging (versus niet-bevestiging) toe met 0,002.

Voor een toename van één eenheid in gpa, stijgt de logkans op bekentenis aan de graduate school met 0,804.

De markeringsfactoren voor de rang hebben een marginaal uitzonderlijke opheldering. Bijvoorbeeld, als je naar een ondergeschikte instelling gaat met een rang van 2, versus een organisatie met een positie van 1, verandert de logkansen op bevestiging met – 0,675.

Onder de tabel met coëfficiënten staan fitte lijsten, met inbegrip van de ongeldige en afwijkende residuen en de AIC. Later laten we een voorbeeld zien van hoe u deze kwaliteiten kunt gebruiken om het enquêtemodel te helpen passen.