La régression logistique, également appelée modèle logit, est utilisée pour montrer les facteurs de résultats dichotomiques. Dans le modèle logit, les chances logarithmiques du résultat sont démontrées comme un mélange direct des variables indicatrices.
Cette page utilise les liasses qui l’accompagnent. Assurez-vous que vous pouvez les empiler avant d’essayer de faire fonctionner les modèles de cette page. Dans le cas où vous n’avez pas introduit de paquet, exécutez : install.packages(“nom du paquet”), ou si vous constatez que l’adaptation n’est pas à jour, exécutez : update.packages().
bibliothèque(aod)
bibliothèque(ggplot2)
Informations sur la version : Le code de cette page a été testé dans la version R 3.0.2 (2013-09-25)
À : 2013-12-16
Avec : tricot 1,5 ; ggplot2 0,9,3,1 ; aod 1,3
Si cela ne vous dérange pas trop, notez : La raison d’être de cette page est de vous indiquer la meilleure façon d’utiliser les différentes directions d’examen des informations. Elle ne couvre pas toutes les parties de la procédure d’exploration que les spécialistes sont censés effectuer. Plus précisément, elle ne couvre pas le nettoyage et la vérification des informations, la confirmation des présomptions, les diagnostics de modèles et les éventuelles investigations de suivi.
Modèles
Modèle 1. Supposons que nous nous intéressions aux éléments qui ont une incidence sur le fait qu’un jeune homme politique gagne une décision politique. La variable de résultat (réaction) est parallèle (0/1) ; gagner ou perdre. Les facteurs indicateurs de la prime sont la mesure de l’argent dépensé dans la croisade, la mesure du temps passé à lutter contre le mal et le fait que le jeune homme soit ou non titulaire d’une fonction.
Modèle 2. Un analyste s’intéresse à la manière dont les variables, par exemple, le GRE (Graduate Record Test scores), la GPA (grade point normal) et la distinction de la fondation du premier cycle, ont un impact sur l’admission dans les écoles supérieures. La variable de réaction, concéder/ne pas concéder, est un double facteur.
Représentation de l’information
Pour notre enquête d’information ci-dessous, nous allons développer le modèle 2 sur l’entrée en troisième cycle. Nous avons produit des informations théoriques, qui peuvent être obtenues sur notre site à l’intérieur de R. Notez que R nécessite des tranches avant (/), et non des lignes de ponctuation obliques () tout en indiquant une zone d’enregistrement, que le document se trouve ou non sur votre disque dur.
mydata <- read.csv(“https://stats.idre.ucla.edu/stat/data/binary.csv”)
## voir les premières lignes des données
tête(mydata)
## admettre le rang de gre gpa
## 1 0 380 3.61 3
## 2 1 660 3.67 3
## 3 1 800 4.00 1
## 4 1 640 3.19 4
## 5 0 520 2.93 4
## 6 1 760 3.00 2
Cet ensemble de données possède une variable de réaction appariée (résultat, subordonnée) appelée concede. Il existe trois facteurs indicateurs : gre, gpa et rank. Nous traiterons les facteurs gre et gpa comme des facteurs permanents. La position de la variable prend les qualités 1 à 4. Les organisations ayant une position de 1 ont la distinction la plus élevée, tandis que celles ayant une position de 4 ont la moins élevée. Nous pouvons obtenir des descriptions fondamentales pour l’ensemble de la collection d’informations en utilisant des synopsis. Pour obtenir les écarts-types, nous utilisons le spply pour appliquer la capacité de la BDD à chaque facteur de la base de données
résumé(mydata)
## admettre le rang de gre gpa
## Min. :0.000 Min. :220 Min. :2.26 Min. :1.00
## 1er Qu.:0.000 1er Qu.:520 1er Qu.:3.13 1er Qu.:2.00
## Médiane :0.000 Médiane :580 Médiane :3.40 Médiane :2.00
## Moyenne :0,318 Moyenne :588 Moyenne :3,39 Moyenne :2,48
## 3e Qu.:1.000 3e Qu.:660 3e Qu.:3.67 3e Qu.:3.00
## Max. :1.000 Max. :800 Max. :4.00 Max. :4.00
sapply(mydata, sd)
## admettre le rang de gre gpa
## 0.466 115.517 0.381 0.944
## Tableau de contingence à double sens des résultats catégoriels et des prédicteurs que nous voulons
## pour s’assurer qu’il n’y a pas de cellules 0
xtabs(~admettre + rang, données = mydonnées)
## rang
## admettre 1 2 3 4
## 0 28 97 93 55
## 1 33 54 28 12
Stratégies d’examen auxquelles vous devez penser
Voici un aperçu de quelques stratégies d’examen que vous avez pu expérimenter. Une partie des stratégies enregistrées est très sensée, tandis que d’autres ont soit abandonné le soutien, soit ont des contraintes.
La rechute calculée, le point central de cette page.
Probit rechute. L’examen Probit donnera des résultats comparables à ceux d’une rechute stratégique. La décision du probit par rapport au logit dépend en grande partie des inclinaisons singulières.
Rechute du SLO. Lorsqu’il est utilisé avec une variable de réaction appariée, ce modèle est connu sous le nom de “straight likelihood show” et peut être utilisé comme une approche pour représenter les probabilités restrictives. Néanmoins, les erreurs (c’est-à-dire les résidus) du modèle de probabilité directe nuisent à l’homoscédasticité et au caractère ordinaire des erreurs soupçonnées d’une rechute par MCO, ce qui entraîne des erreurs standard et des tests théoriques non valables. Pour un échange progressivement prudent de ces questions et de différents problèmes avec le modèle de vraisemblance directe, voir Long (1997, p. 38-40).
Examen de travail discriminant à deux groupes. Une technique multivariée pour les facteurs de résultats dichotomiques.
L’hôtellerie, c’est le T2. Le résultat 0/1 est transformé en variable de collecte, et les indicateurs précédents sont transformés en facteurs de résultat. Cela permettra de tester l’ampleur de la situation, mais ne donnera pas de coefficients uniques pour chaque facteur, et le degré d’équilibre entre chaque “indicateur” et l’effet des différents “indicateurs” est indistinct.
Utilisation du modèle logit
Le code ci-dessous évalue un modèle stratégique de rechute en utilisant le travail de glm (Summum Straight Model). Pour commencer, nous convertissons le rang en un facteur afin de démontrer que le rang doit être traité comme une variable bien définie.
mydata$rank <- facteur(mydata$rank)
mylogit <- glm(admit ~ gre + gpa + rank, data = mydata, family = “binomial”)
Comme nous avons donné un nom à notre modèle (mylogit), R ne produira aucun résultat de notre régression. Afin d’obtenir les résultats, nous utilisons la commande de résumé :
résumé(mylogit)
##
## Appel :
## glm(formule = admettre ~ gre + gpa + rang, famille = “binôme”,
## data = mydata)
##
## Deviance Residuals :
## Min 1Q Médiane 3Q Max
## -1.627 -0.866 -0.639 1.149 2.079
##
## Coefficients :
## Erreur d’estimation de la norme z valeur Pr(>|z|)
## (Interception) -3.98998 1.13995 -3.50 0.00047 ***
## gre 0.00226 0.00109 2.07 0.03847 *
## gpa 0,80404 0,33182 2,42 0,01539 *
## rang2 -0,67544 0,31649 -2,13 0,03283 *
## rang3 -1.34020 0.34531 -3.88 0.00010 ***
## rang4 -1,55146 0,41783 -3,71 0,00020 ***
## —
## Codes signif. : 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1
##
## (paramètre de dispersion pour la famille binomiale considéré comme 1)
##
## Déviance nulle : 499,98 sur 399 degrés de liberté
## Déviance résiduelle : 458,52 sur 394 degrés de liberté
## AIC : 470,5
##
## Nombre d’itérations de notation de Fisher : 4
Dans le yield over, la première chose que nous voyons est l’appel, c’est R qui nous rappelle quel était le modèle que nous avons utilisé, quelles étaient les alternatives que nous avons indiquées, et ainsi de suite.
Ensuite, nous voyons les résidus d’anomalie, qui sont une proportion de l’ajustement du modèle. Ce morceau de rendement montre la diffusion des résidus d’anomalies pour les cas singuliers utilisés dans le modèle. En dessous, nous expliquons comment utiliser les synopsis de la mesure des anomalies pour évaluer l’ajustement du modèle.
La partie suivante du rendement montre les coefficients, leurs erreurs standard, la mesure z (parfois appelée mesure z de Wald) et les valeurs p correspondantes. Le gre et le gpa sont tous deux mesurables, tout comme les trois termes de classement. Les coefficients de rechute calculés donnent l’ajustement dans les chances logarithmiques du résultat pour une augmentation d’une unité de la variable indicatrice.
Pour chaque changement d’une unité de gre, le logarithme des chances de confirmation (par rapport à la non-affirmation) augmente de 0,002.
Pour une augmentation d’une unité en gpa, les chances logarithmiques d’être admis aux études supérieures augmentent de 0,804.
Les facteurs marqueurs du rang ont une élucidation marginale extraordinaire. Par exemple, le fait d’être allé dans un établissement de premier cycle avec un rang de 2, contre une organisation avec un rang de 1, change les chances logarithmiques d’affirmation de – 0,675.
Sous le tableau des coefficients se trouvent des listes d’ajustement, y compris les résidus d’invalidité et d’anomalies et le CIA. Nous montrons plus loin comment vous pouvez utiliser ces qualités pour faciliter l’ajustement du modèle d’enquête.