A regressão logística, também chamada de modelo logit, é utilizada para mostrar fatores dicotômicos de resultado. No modelo logit, as chances logísticas do resultado são demonstradas como uma combinação direta das variáveis indicadoras.

Esta página utiliza os pacotes que acompanham o produto. Certifique-se de que você pode empilhá-los antes de tentar executar os modelos nesta página. Caso você não tenha um pacote introduzido, execute: install.packages(“nome do pacote”), ou na hipótese de ver a adaptação desatualizada, execute: update.packages().

biblioteca(aod)

biblioteca(ggplot2)

Informações sobre a versão: Código para esta página foi testado na versão R 3.0.2 (2013-09-25)

Em: 2013-12-16

Com: knitr 1.5; ggplot2 0.9.3.1; aod 1.3

Se não for muito incômodo, note: A razão para esta página é para dizer a melhor maneira de utilizar diferentes direções de exame de informações. Ela não cobre todas as partes do procedimento de exploração que os especialistas confiam para fazer. Especificamente, não cobre a limpeza e verificação de informações, confirmação de presunções, diagnóstico de modelos e possíveis investigações de acompanhamento.

Modelos

Modelo 1. Assumir que estamos atentos aos componentes que impactam se um up-and-comer político ganha uma decisão política. A variável resultado (reação) é paralela (0/1); ganhar ou perder. Os fatores indicadores de prêmio são a medida do dinheiro gasto na cruzada, a medida do tempo gasto na batalha adversa e se o up-and-comer é um detentor de cargo.

Modelo 2. Um analista está interessado em como as variáveis, por exemplo, GRE (Graduate Record Test scores), GPA (grade point normal) e distinção da fundação da graduação, impactam a indução no ensino superior. A variável reação, concede/não concede, é um fator duplo.

Representação das informações

Para nossa investigação informativa abaixo, vamos desenvolver o Modelo 2 sobre como ingressar na pós-graduação. Produzimos informações teóricas, que podem ser obtidas em nosso site de dentro do R. Note que o R requer fatias (/), não linhas de pontuação oblíquas () enquanto indica uma área de registro, independentemente de o documento estar em seu disco rígido.

mydata <- read.csv(“https://stats.idre.ucla.edu/stat/data/binary.csv”)

## ver as primeiras linhas dos dados

cabeça(mydata)

## admitir gre gpa rank

## 1     0 380 3.61    3

## 2     1 660 3.67    3

## 3     1 800 4.00    1

## 4     1 640 3.19    4

## 5     0 520 2.93    4

## 6     1 760 3.00    2

Este conjunto de dados tem uma variável de reação pareada (resultado, subordinada) chamada ceder. Há três fatores indicadores: gre, gpa e rank. Vamos tratar os fatores gre e gpa como incessantes. A posição da variável assume as qualidades de 1 a 4. Organizações com uma posição de 1 têm a distinção mais elevada, enquanto aquelas com uma posição de 4 têm a menos. Podemos obter descrições fundamentais para toda a coleção informativa, utilizando sinopse. Para obter os desvios padrão, utilizamos sapply para aplicar a capacidade do sd a cada fator da base de dados.

resumo(mydata)

## admitir gre gpa rank   

## Mín. :0.000 Mín. :220 Mín. :2.26 Mín. :1.00 

## 1º Qu.:0.000 1º Qu.:520 1º Qu.:3.13 1º Qu.:2.00 

## Mediana :0.000 Mediana :580 Mediana :3.40 Mediana :2.00 

## Média :0.318 Média :588 Média :3.39 Média :2.48 

## 3º Qu.:1.000 3º Qu.:660 3º Qu.:3.67 3º Qu.:3.00 

## Máx. :1.000 Máx. :800 Máx. :4.00 Máx. :4.00

sapply(mydata, sd)

## admitir gre gpa rank

##   0.466 115.517   0.381   0.944

## tabela de contingência bidirecional de resultados categóricos e preditores que queremos

## para ter certeza de que não há 0 células

xtabs(~admit + rank, data = mydata)

## ranking

## admitir 1 2 3 4

##     0 28 97 93 55

##     1 33 54 28 12

Estratégias de exame em que você deve pensar

A seguir, um resumo de algumas estratégias de exame que você pode ter experimentado. Uma parte das estratégias registradas é muito sensata, enquanto outras ou desistiram do apoio ou têm restrições.

Recidiva calculada, o ponto focal desta página.

Recaída de próbit. O exame de Probit criará resultados em uma recidiva estratégica comparável. A decisão de probit versus logit depende, em grande parte, de inclinações singulares.

Recaída de OLS. No momento em que utilizado com uma variável de reação emparelhada, este modelo é conhecido como um show de probabilidades retas e pode ser utilizado como uma abordagem para retratar probabilidades restritivas. No entanto, os erros (ou seja, resíduos) do modelo de verossimilhança reta danificam a homosquasticidade e a normalidade das suspeitas de erro de recidiva de OLS, provocando erros padrão inválidos e testes teóricos. Para uma troca progressivamente cuidadosa dessas e diferentes questões com o modelo de verossimilhança direta, ver Long (1997, p. 38-40).

Exame de trabalho discriminatório de dois grupos. Uma técnica multivariada para fatores de resultado dicotômicos.

Hotelling’s T2. O resultado 0/1 é transformado na variável coletora, e os indicadores anteriores são transformados em fatores de resultado. Isto proporcionará uma tentativa geral de grandeza, porém não dará coeficientes singulares para cada fator, e é indistinto o grau em que cada “indicador” é equilibrado para o efeito de diferentes “indicadores”.

Utilizando o modelo logit

O código abaixo mede um modelo de recidiva estratégica utilizando o glm (modelo resumido em linha reta) de trabalho. Para começar, convertemos rank em um fator para demonstrar que rank deve ser tratado como uma variável de corte claro.

mydata$rank <- fator(mydata$rank)

mylogit <- glm(admite ~ gre + gpa + rank, dados = mydata, família = “binomial”)

Como demos um nome ao nosso modelo (mylogit), R não vai produzir nenhuma saída da nossa regressão. Para obter os resultados, usamos o comando resumo:

resumo(mylogit)

##

## Chamada:

## glm(fórmula = admitir ~ gre + gpa + rank, família = “binomial”,

## dados = mydata)

##

## Deviance Residuals:

## Mínimo 1T Mediana 3T Máximo 

## -1.627  -0.866  -0.639   1.149   2.079 

##

## Coeficientes:

## Estimativa do valor z do erro Std. Pr(>|z|)   

## (Interceptar) -3.98998 1.13995 -3.50 0.00047 ***

## gre 0,00226 0,00109 2,07 0,03847 *

## gpa 0,80404 0,33182 2,42 0,01539 *

## rank2 -0,67544 0,31649 -2,13 0,03283 *

## rank3 -1.34020 0.34531 -3.88 0.00010 ***

## rank4 -1,55146 0,41783 -3,71 0,00020 ***

## —

## Códigos Signif.: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ ‘ 1

##

## (Parâmetro de dispersão para família binomial tomada para ser 1)

##

## Desvio nulo: 499,98 em 399 graus de liberdade

## Desvio residual: 458,52 em 394 graus de liberdade

## AIC: 470.5

##

## Número de iterações de pontuação de Fisher: 4

No yield over, a principal coisa que vemos é a chamada, isto é R lembrando-nos qual foi o modelo que corremos, que alternativas indicamos, e assim por diante.

A seguir, vemos os resíduos de anormalidade, que são uma proporção do modelo que se encaixa. Esta peça de rendimento mostra a disseminação dos resíduos de anormalidade para casos singulares utilizados no modelo. Abaixo falamos sobre como utilizar sinopses da medida da anormalidade para avaliar o encaixe do modelo.

A seguinte parte do rendimento mostra os coeficientes, seus erros padrão, a medição z (às vezes chamada de medição Wald z), e os respectivos p-valores. Tanto o gre e o gpa são mensuravelmente críticos, semelhantes aos três termos de classificação. Os coeficientes de recidiva calculados dão o ajuste no log de chances do resultado para um incremento de uma unidade na variável indicadora.

Para cada mudança de uma unidade em gre, as chances de confirmação (versus nãoafirmação) aumentam em 0,002.

Para um incremento de uma unidade em gpa, as chances de ser confessada a graduação aumentam em 0,804.

Os fatores marcadores para a classificação têm uma elucidação marginalmente extraordinária. Por exemplo, ter ido para um estabelecimento de graduação com uma posição de 2, contra uma organização com uma posição de 1, altera as chances logísticas de afirmação em – 0,675.

Abaixo da tabela de coeficientes estão as listas de ajuste, incluindo os resíduos de invalidez e anormalidade e o AIC. Posteriormente mostramos um caso de como você pode utilizar essas qualidades para ajudar na adequação do modelo de pesquisa.