La regressione logistica, detta anche modello logit, viene utilizzata per mostrare fattori di risultato dicotomici. Nel modello logit, le probabilità logiche del risultato sono dimostrate come un mix diretto delle variabili indicatori.

Questa pagina utilizza i pacchetti di accompagnamento. Assicuratevi di poterli impilare prima di tentare di far funzionare i modelli su questa pagina. Nel caso in cui non sia stato introdotto un bundle, eseguire: install.packages(“nome del pacchetto”), o nella remota possibilità che si veda che l’adattamento è obsoleto, eseguire: update.packages().

biblioteca(aod)

biblioteca(ggplot2)

Informazioni sulla versione: Il codice di questa pagina è stato testato nella versione R 3.0.2 (2013-09-25)

Il: 2013-12-16

Con: knitr 1,5; ggplot2 0,9.3.1; aod 1,3

Se non è una nota di troppo disturbo: il motivo di questa pagina è quello di indicare il modo migliore per utilizzare le diverse indicazioni per l’esame delle informazioni. Non copre tutte le parti della procedura di esplorazione che gli specialisti sono chiamati a fare. In particolare, non copre la pulizia e il controllo delle informazioni, la conferma delle presunzioni, la diagnostica del modello e le potenziali indagini di follow-up.

Modelli

Modello 1. Ipotizziamo di essere attenti alle componenti che influiscono sulla decisione politica di un leader politico che vince una decisione politica. La variabile di risultato (reazione) è parallela (0/1); vincere o perdere. I fattori indicatori del premio sono la misura del denaro speso per la crociata, la misura del tempo trascorso a combattere in modo negativo e se l’emergente è un titolare di un ufficio.

Modello 2. Un analista è appassionato di come le variabili, ad esempio, GRE (Graduate Record Test scores), GPA (Graduate Record Test score), GPA (grade point normal) e distinzione della fondazione undergrad, l’induzione all’impatto nella scuola di laurea. La variabile di reazione, concedere/non concedere, è un doppio fattore.

Rappresentazione delle informazioni

Per la nostra indagine informativa sottostante, svilupperemo il modello 2 per l’ammissione alla scuola di specializzazione. Abbiamo prodotto informazioni teoriche, che possono essere ottenute dal nostro sito dall’interno di R. Si noti che R richiede fette in avanti (/), non linee di punteggiatura oblique () mentre indica un’area di registrazione indipendentemente dal fatto che il documento sia sul disco rigido.

mydata <- leggi.csv(“https://stats.idre.ucla.edu/stat/data/binary.csv”)

## visualizzare le prime righe dei dati

testa(mydata)

## ammetti il rango di gre gpa

## 1     0 380 3.61    3

## 2     1 660 3.67    3

## 3     1 800 4.00    1

## 4     1 640 3.19    4

## 5     0 520 2.93    4

## 6     1 760 3.00    2

Questo dataset ha una reazione di coppia (risultato, subordinato) variabile chiamata concessione. Ci sono tre fattori indicatori: gre, gpa e rango. Tratteremo i fattori gre e gpa come incessanti. La posizione della variabile assume le qualità da 1 a 4. Le organizzazioni con una posizione di 1 hanno la distinzione più elevata, mentre quelle con una posizione di 4 hanno la minore. Possiamo ottenere descrizioni fondamentali per l’intera raccolta di informazioni utilizzando la sinossi. Per ottenere le deviazioni standard, applichiamo in modo sapiente la capacità sd ad ogni fattore della banca dati

riepilogo(mydata)

## ammetti il rango di gre gpa  

## Min. :0.000 Min. :220 Min. :2.26 Min. :1.00 

## 1° Qu.:0.000 1° Qu.:520 1° Qu.:520 1° Qu.:3.13 1° Qu.:2.00 

## Mediana :0.000 Mediana :580 Mediana :3.40 Mediana :2.00 

## Media :0.318 Media :588 Media :3.39 Media :2.48 

## 3° Qu.:1.000 3° Qu.:660 3° Qu.:3.67 3° Qu.:3.00 

## Max. :1.000 Max. :800 Max. :4.00 Max. :4.00

sapply(mydata, sd)

## ammetti il rango di gre gpa

##   0.466 115.517   0.381   0.944

## tabella di contingenza a due vie di risultati categorici e predittori che vogliamo

## per assicurarsi che non ci siano 0 celle

xtabs(~ammissione + rango, dati = mydata)

## rango

## ammettere 1 2 3 4

##     0 28 97 93 55

##     1 33 54 28 12

Strategie d’esame a cui dovreste pensare

Di seguito è riportato un riassunto di alcune strategie d’esame che potreste aver sperimentato. Una parte delle strategie registrate è molto sensata, mentre altre hanno abbandonato il supporto o hanno dei vincoli.

Calcolata la ricaduta, il punto focale di questa pagina.

Ricaduta della protuberanza. L’esame di Probit creerà dei risultati in una ricaduta strategica comparabile. La decisione di probit contro logit dipende in gran parte da singole inclinazioni.

Una ricaduta OLS. Nel momento in cui viene utilizzato con una variabile di reazione accoppiata, questo modello è noto come una dimostrazione di probabilità diretta e può essere utilizzato come un approccio per rappresentare le probabilità restrittive. Nonostante ciò, gli errori (cioè i residui) del modello di probabilità diretta danneggiano l’omosessualità e l’ordinarietà dei sospetti di ricaduta OLS, causando errori standard non validi e test teorici. Per uno scambio progressivamente attento di queste e diverse questioni con il modello di probabilità diretta, si veda Long (1997, p. 38-40).

Esame di lavoro discriminante a due gruppi. Una tecnica multivariata per fattori di risultato dicotomici.

Hotelling e’ il T2. Il risultato 0/1 viene trasformato nella variabile di raccolta, e gli indicatori precedenti vengono trasformati in fattori di risultato. Questo darà una prova generale di enormità, tuttavia non darà coefficienti singolari per ogni fattore, ed è indistinto il grado in cui ogni “indicatore” è bilanciato per l’effetto di diversi “indicatori”.

Utilizzo del modello logit

Il codice sotto i misuratori è un modello strategico di ricaduta che utilizza il lavoro glm (riassunto del modello rettilineo). Per cominciare, convertiamo il rango in un fattore per dimostrare che il rango deve essere trattato come una variabile chiara.

mydata$rank <- fattore(mydata$rank)

mylogit <- glm(admit ~ gre + gpa + rango, dati = mydata, famiglia = “binomio”)

Da quando abbiamo dato un nome al nostro modello (mylogit), R non produrrà alcun risultato dalla nostra regressione. Per ottenere i risultati, usiamo il comando di riepilogo:

riassunto(mylogit)

##

## Chiama:

## glm(formula = ammettere ~ gre + gpa + rango, famiglia = “binomio”,

## data = mydata)

##

## Residui della devianza:

## Min 1Q Mediana 3Q Max 

## -1.627  -0.866  -0.639   1.149   2.079 

##

## Coefficienti:

## Stima Std. Errore z valore Pr(>|z|)   

## (Intercetta) -3.98998 1.13995 -3.50 0.00047 ***

## gre 0.00226 0.00226 0.00109 2.07 0.03847 *

## gpa 0,80404 0,33182 2,42 0,01539 ## gpa 0,80404 0,33182 2,42 0,01539 *

## rank2 -0,67544 0,31649 -2,13 0,03283 *

## rango3 -1,34020 0,34531 -3,88 0,00010 ***

## rank4 -1,55146 0,41783 -3,71 0,00020 ***

## —

## Codici significativi: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ ‘ 1

##

## (Parametro di dispersione per famiglia binomiale assunto come 1)

##

## Devianza nulla: 499,98 su 399 gradi di libertà

## Devianza residua: 458,52 su 394 gradi di libertà

## AIC: 470,5

##

## Numero di iterazioni Punteggio Fisher: 4

Nella resa oltre, la cosa principale che vediamo è la chiamata, questa è R che ci ricorda quale fosse il modello che abbiamo eseguito, quali alternative abbiamo indicato, e così via.

Poi vediamo i residui dell’anomalia, che sono una proporzione della misura del modello. Questo pezzo di rendimento mostra la diffusione dei residui di anomalie per casi singoli utilizzati nel modello. Qui sotto si parla di come utilizzare le sinossi della misurazione dell’anomalia per valutare la misura del modello.

Il seguente pezzo del rendimento mostra i coefficienti, i loro errori standard, la misura z (a volte chiamata misura z di Wald), e i relativi valori p. Sia il gre che il gpa sono misurabilmente critici, simili ai tre termini per il rango. I coefficienti di ricaduta calcolati danno la possibilità di aggiustare nel log le probabilità del risultato per un incremento di un’unità nella variabile indicatore.

Per ogni variazione di un’unità in gre, le probabilità di conferma (rispetto alla non conferma) aumentano di 0,002.

Per un incremento di un’unità in gpa, le probabilità di essere confessato agli incrementi della scuola di laurea sono di 0,804.

I fattori di valutazione per il rango hanno una delucidazione marginalmente straordinaria. Per esempio, l’aver frequentato un istituto universitario con un grado di 2, contro un’organizzazione con una posizione di 1, cambia le possibilità di affermazione di – 0,675.

Sotto la tabella dei coefficienti ci sono le liste di idoneità, compresi i residui di invalidità e di anomalie e l’AIC. Più avanti mostriamo un caso di come è possibile utilizzare queste qualità per aiutare il modello di indagine a soddisfare i requisiti.