La regresión logística, también llamada modelo logístico, se utiliza para mostrar factores de resultado dicotómicos. En el modelo logit, las probabilidades logísticas del resultado se demuestran como una mezcla directa de las variables indicadoras.

Esta página utiliza los paquetes que la acompañan. Asegúrate de que puedes apilarlos antes de intentar ejecutar los modelos de esta página. En caso de que no tenga un paquete introducido, ejecute: install.packages(“nombre del paquete”), o en caso de que vea que la adaptación está desactualizada, ejecute: update.packages().

biblioteca(aod)

biblioteca(ggplot2)

Información de la versión: El código de esta página fue probado en la versión R 3.0.2 (2013-09-25)

En: 2013-12-16

Con: knitr 1.5; ggplot2 0.9.3.1; aod 1.3

Si no es demasiado problema, nota: La razón de esta página es decir la mejor manera de utilizar las diferentes direcciones de examen de la información. No cubre todas las partes del procedimiento de exploración en las que se confía a los especialistas. Específicamente, no cubre la limpieza y verificación de la información, la confirmación de las presunciones, el diagnóstico del modelo y las posibles investigaciones de seguimiento.

Modelos

Modelo 1. Supongamos que estamos interesados en los componentes que influyen en que un aspirante político gane una decisión política. La variable de resultado (reacción) es paralela (0/1); ganar o perder. Los factores indicadores de la prima son la medida del dinero gastado en la cruzada, la medida del tiempo dedicado a la lucha contra la adversidad y si el aspirante es un funcionario.

Modelo 2. Un analista se interesa en cómo las variables, por ejemplo, GRE (Graduate Record Test scores), GPA (grade point normal) y la distinción de la base de la licenciatura, impactan en la inducción a la escuela de postgrado. La variable de reacción, conceder/no conceder, es un factor doble.

La descripción de la información

Para nuestra investigación de información de abajo, desarrollaremos el Modelo 2 sobre cómo entrar en la escuela de graduados. Hemos producido información teórica, que puede ser obtenida de nuestro sitio desde el interior de R. Tenga en cuenta que R requiere cortes hacia adelante (/), no líneas de puntuación oblicuas () mientras que indica un área de registro, independientemente de si el documento está en su disco duro.

mydata <- read.csv(“https://stats.idre.ucla.edu/stat/data/binary.csv”)

## ver las primeras filas de los datos

cabeza(mydata)

## admitir el rango del GPA

## 1     0 380 3.61    3

## 2     1 660 3.67    3

## 3     1 800 4.00    1

## 4     1 640 3.19    4

## 5     0 520 2.93    4

## 6     1 760 3.00    2

Este conjunto de datos tiene una variable de reacción emparejada (resultado, subordinada) llamada concede. Hay tres factores indicadores: gre, gpa y rango. Trataremos los factores gre y gpa como incesantes. La posición de la variable toma las cualidades de 1 a 4. Las organizaciones con una posición de 1 tienen la distinción más elevada, mientras que las que tienen una posición de 4 tienen la menor. Podemos obtener descripciones fundamentales para toda la colección de información utilizando una sinopsis. Para obtener las desviaciones estándar, utilizamos sapply para aplicar la capacidad sd a cada factor de la base de datos

resumen(mydata)

## admitir el rango del GPA  

## Min. :0.000 Min. :220 Min. :2.26 Min. :1.00 

## 1er Qu.:0.000 1er Qu.:520 1er Qu.:3.13 1er Qu.:2.00 

## Mediana: 0.000 Mediana: 580 Mediana: 3.40 Mediana: 2.00 

## Media: 0,318 Media: 588 Media: 3,39 Media: 2,48 

## 3º Qu.:1.000 3º Qu.:660 3º Qu.:3.67 3º Qu.:3.00 

## Máximo: 1.000 Máximo: 800 Máximo: 4.00 Máximo: 4.00

sapply(mydata, sd)

## admitir el rango del GPA

##   0.466 115.517   0.381   0.944

## Tabla de contingencia de dos vías de resultados categóricos y predictores que queremos

## para asegurarse de que no hay 0 células

xtabs(~admitir + rango, datos = mydata)

## Rango

## Admita 1 2 3 4

##     0 28 97 93 55

##     1 33 54 28 12

Estrategias de examen en las que deberías pensar

A continuación se presenta un resumen de algunas estrategias de examen que puede haber experimentado. Una parte de las estrategias registradas es muy sensata, mientras que otras han dejado de tener apoyo o tienen limitaciones.

Recaída calculada, el punto central de esta página.

Probit recaída. El examen de probit creará resultados en una recaída estratégica comparable. La decisión de probit versus logit depende en gran medida de las inclinaciones singulares.

Recaída de la OLS. En el momento en que se utiliza con una variable de reacción emparejada, este modelo se conoce como un show de probabilidad directa y puede ser utilizado como un enfoque para retratar probabilidades restrictivas. No obstante, los errores (es decir, los residuos) del modelo de verosimilitud directa dañan la homosexualidad y la ordinariez de las sospechas erróneas de una recaída de la ELA, lo que provoca errores estándar y pruebas teóricas inválidas. Para un intercambio progresivamente cuidadoso de estas y otras cuestiones con el modelo de verosimilitud directa, véase Long (1997, pág. 38-40).

Examen de trabajo discriminatorio de dos grupos. Una técnica multivariante para factores de resultado dicotómicos.

Hotelling es T2. El resultado 0/1 se transforma en la variable de recogida, y los indicadores anteriores se transforman en factores de resultado. Esto dará una prueba general de la inmensidad, sin embargo no dará coeficientes singulares para cada factor, y es indistinto el grado en que cada “indicador” está equilibrado por el efecto de los diferentes “indicadores”.

Utilizando el modelo logit

El código de abajo mide un modelo estratégico de recaída utilizando el trabajo glm (modelo rectilíneo resumido). Para empezar, convertimos el rango en un factor para demostrar que el rango debe ser tratado como una variable de corte claro.

mydata$rank <- factor(mydata$rank)

mylogit <- glm(admita ~ gre + gpa + rango, datos = mydata, familia = “binomio”)

Como le dimos un nombre a nuestro modelo (mylogit), R no producirá ningún resultado de nuestra regresión. Para obtener los resultados utilizamos el comando de resumen:

resumen(mylogit)

##

## Llama:

## glm(formula = admitir ~ gre + gpa + rango, familia = “binomio”,

## data = mydata)

##

## Residuos de desviación:

## Min 1Q Mediana 3Q Max 

## -1.627  -0.866  -0.639   1.149   2.079 

##

## Coeficientes:

## Estimación del error estándar. Valor z Pr(>|z|)   

## (Intercepción) -3.98998 1.13995 -3.50 0.00047 ***

## gre 0.00226 0.00109 2.07 0.03847 *

## gpa 0.80404 0.33182 2.42 0.01539 *

## rank2 -0.67544 0.31649 -2.13 0.03283 *

## Rango3 -1.34020 0.34531 -3.88 0.00010 ***

## rank4 -1.55146 0.41783 -3.71 0.00020 ***

## —

## Códigos significativos: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1

##

## (Parámetro de dispersión para la familia del binomio tomado como 1)

##

## Nula desviación: 499.98 sobre 399 grados de libertad

## Desviación residual: 458,52 sobre 394 grados de libertad

## AIC: 470.5

##

## Número de iteraciones de puntuación de Fisher: 4

En el “yield over”, lo principal que vemos es la llamada, esto es R recordándonos cuál fue el modelo que corrimos, qué alternativas indicamos, y así sucesivamente.

A continuación, vemos los residuos de anormalidad, que son una proporción del ajuste del modelo. Esta pieza de rendimiento muestra la diseminación de los residuos de anormalidad para los casos singulares utilizados en el modelo. Debajo hablamos de cómo utilizar las sinopsis de la medición de la anormalidad para evaluar el ajuste del modelo.

La siguiente pieza del rendimiento muestra los coeficientes, sus errores estándar, la medición de z (a veces llamada medición de Wald z), y los valores p relacionados. Tanto el gre como el gpa son mensurables críticos, similares a los tres términos de rango. Los coeficientes de recaída calculados dan el ajuste en las posibilidades logísticas del resultado para un incremento de una unidad en la variable indicadora.

Por cada cambio de una unidad en gre, las posibilidades de confirmación (frente a la no afirmación) se incrementan en 0,002.

Para un incremento de una unidad de gpa, las posibilidades de ser confesado en la escuela de graduados se incrementan en 0.804.

Los factores marcadores de rango tienen una aclaración marginalmente extraordinaria. Por ejemplo, el haber ido a un establecimiento universitario con un rango de 2, frente a una organización con una posición de 1, cambia las posibilidades logísticas de afirmación en – 0,675.

Debajo de la tabla de coeficientes hay listas de ajuste, incluyendo los residuos de inválidos y anormalidades y el AIC. Más adelante mostramos un caso de cómo se pueden utilizar estas cualidades para ayudar a estudiar el ajuste del modelo.