Логистическая регрессия, также называемая логистической моделью, используется для отображения дихотомических факторов результата. В логистической модели шансы на результат демонстрируются как прямая смесь переменных индикатора.
На данной странице используются сопутствующие связки. Убедитесь, что их можно сложить в стек, прежде чем пытаться запустить модели на этой странице. Если у вас нет введённого пакета, запустите: install.packages(“имя пакета”), или, если вы видите, что адаптация устарела, запустите: update.packages().
библиотека(aod)
библиотека(ggplot2)
Информация о версии: Код для этой страницы был протестирован в R версии 3.0.2 (2013-09-25).
2013-12-16 гг.
С: трикотажом 1,5; ggplot2 0,9,3,1; aod 1,3
Если это не слишком много проблем Примечание: Причина этой страницы заключается в том, чтобы рассказать лучший способ использования различных направлений изучения информации. Она не охватывает все части процедуры исследования, на которые полагаются специалисты. В частности, она не охватывает очистку и проверку информации, подтверждение предположений, диагностику модели и возможные последующие исследования.
Модели
Модель 1. Предположим, что мы заинтересованы в тех компонентах, которые влияют на то, выигрывает ли политический деятель политическое решение. Переменная результата (реакции) параллельна (0/1); победа или поражение. Индикаторные факторы премии – это мера денежных средств, потраченных на крестовый поход, мера времени, потраченного на негативные сражения, и является ли политический деятель должностным лицом.
Модель 2. Аналитик интересуется, каким образом переменные, например, GRE (результаты теста на получение диплома об окончании высшего учебного заведения), GPA (нормальный балл успеваемости) и разграничение оснований для поступления в аспирантуру, влияют на поступление в аспирантуру. Переменная реакции, пропустить/не пропустить, является двойным фактором.
Отображение информации
Для нашего информационного расследования внизу, мы разработаем Модель 2 о поступлении в аспирантуру. Мы подготовили теоретическую информацию, которая может быть получена с нашего сайта изнутри R. Обратите внимание, что R требует прямой срез (/), а не косые линии препинания () при указании области записи независимо от того, документ находится ли на вашем жестком диске.
мидата <- read.csv(“https://stats.idre.ucla.edu/stat/data/binary.csv”).
## просмотрите первые несколько строк данных.
голова(мидата)
## признай звание gre gpa
## 1 0 380 3.61 3
## 2 1 660 3.67 3
## 3 1 800 4.00 1
## 4 1 640 3.19 4
## 5 0 520 2.93 4
## 6 1 760 3.00 2
Этот набор данных имеет парную реакцию (результат, подчиненная) переменную, называемую concede. Существует три индикаторных фактора: gre, gpa и rank. Мы будем рассматривать факторы gre и gpa как непрекращающиеся. Переменная позиция принимает качества с 1 по 4. Организации с позицией 1 имеют наиболее высокое отличие, в то время как организации с позицией 4 имеют наименьшее. Мы можем получить фундаментальные описания для всего массива информации, используя синопсис. Чтобы получить стандартные отклонения, мы используем sd для каждого фактора в наборе данных.
резюме(мидата)
## признай звание gre gpa
## Мин. 0.000 Мин. 220 Мин. 2.26 Мин. 1.00
## 1-я Кв.:0.000 1-я Кв.:520 1-я Кв.:3.13 1-я Кв.:2.00
## Медиана :0.000 Медиана :580 Медиана :3.40 Медиана :2.00
## Средний :0.318 Средний :588 Средний :3.39 Средний :2.48
## 3-ий квартал:1.000 3-ий квартал:660 3-ий квартал:3.67 3-ий квартал:3.00
## Максимум: 1.000 Максимум: 800 Максимум: 4.00 Максимум: 4.00
sapply(mydata, sd)
## признай звание gre gpa
## 0.466 115.517 0.381 0.944
## Двухсторонняя таблица непредвиденных обстоятельств категорического исхода и предикторов, которые нам нужны.
## чтобы убедиться, что нет 0 клеток.
xtabs(~admit + ранг, data = mydata)
## ранг
## признай 1 2 3 4
## 0 28 97 93 55
## 1 33 54 28 12
Экзаменационные стратегии, о которых вам следует подумать
Ниже приведен обзор некоторых экзаменационных стратегий, с которыми Вы, возможно, сталкивались. Часть записанных стратегий очень разумны, в то время как другие либо отказались от поддержки, либо имеют ограничения.
Рассчитанный рецидив, центральный пункт этой страницы.
Рецидив зайца. Исследование на зонде даст результаты в сопоставимом стратегическом рецидиве. Решение пробита против логита в значительной степени зависит от сингулярных наклонов.
ОЛС-рецидив. В точке, когда используется парная переменная реакции, эта модель известна как прямое отображение вероятности и может быть использована как подход для отображения ограничительных вероятностей. Тем не менее, ошибки (т.е. остатки) от прямой модели вероятности повреждают гомоскедастичность и обыденность подозрений на ОЛС-рецидив, приводя к недействительным стандартным просчетам и теоретическим тестам. Постепенный тщательный обмен этими и различными вопросами с прямой моделью вероятности см. в Лонге (1997, с. 38-40).
Исследование работы с двумя группами дискриминации. Многомерная техника для дихотомических факторов результата.
Т2 Хотеллинга. Результат 0/1 трансформируется в собирающую переменную, а предыдущие показатели – в факторы результата. Это даст общее испытание на тяжесть, но не даст единичных коэффициентов для каждого фактора, а также неясно, в какой степени каждый “индикатор” сбалансирован для эффекта различных “индикаторов”.
Использование логитной модели
Код под ним измеряет модель стратегического рецидива с использованием глм (суммированная прямая модель) работы. Для начала мы преобразовываем ранг в фактор, чтобы показать, что ранг следует рассматривать как четкую переменную.
мидата$ранка <- фактор (мидата$ранка)
mylogit <- glm(допустим ~ gre + gpa + ранг, data = mydata, family = “биномиальный”)
Так как мы дали нашей модели имя (mylogit), R не будет производить никакого вывода из нашей регрессии. Для получения результатов мы используем команду сводки:
summary(mylogit)
##
## Звони:
## glm(формула = признать ~ gre + gpa + ранг, семья = “биномиальный”,
## data = mydata)
##
## Остатки девианса:
## Мин 1Q Медиана 3Q Макс.
## -1.627 -0.866 -0.639 1.149 2.079
##
## Коэффициенты:
## Оцените std. Ошибка z значения Pr(>|z|)
## (перехват) -3.98998 1.13995 -3.50 0.00047 ***
## gre 0.00226 0.00109 2.07 0.03847 *
## gpa 0.80404 0.33182 2.42 0.01539 *
## rank2 -0.67544 0.31649 -2.13 0.03283 *
## rank3 -1.34020 0.34531 -3.88 0.00010 ***
## rank4 -1.55146 0.41783 -3.71 0.00020 ***
## —
## Подпись. Коды: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ ‘ 1
##
## (Параметр дисперсии для биномиального семейства принимается как 1)
##
## Нулевое отклонение: 499,98 на 399 степеней свободы
## Остаточное отклонение: 458,52 на 394 степени свободы
## AIC: 470.5
##
## Количество итераций Фишера: 4
В конце концов, главное, что мы видим – это призыв, это R напоминание нам о том, какой была моделью мы управляли, какие альтернативы мы указывали, и так далее.
Далее мы видим остатки аномалий, которые являются частью соответствия модели. Эта часть урожая показывает распространение остатков аномалий для единичных случаев, используемых в модели. Внизу мы поговорим о том, как использовать синопсы измерения аномалий для оценки соответствия модели.
Следующая часть урожая показывает коэффициенты, их стандартные ошибки, z-измерение (иногда называемое Wald z-измерением) и связанные с ним p-значения. И gre, и gpa измеримо критичны, аналогично трем терминам для ранга. Рассчитанные коэффициенты рецидива дают возможность скорректировать в журнале шансы результата на единичный прирост в переменной индикатора.
Для каждого единичного изменения в gre шансы лог-файла подтверждения (по сравнению с неподтверждением) увеличиваются на 0,002.
Для одноразового инкремента в gpa, шансы журнала быть признанными в инкрементах выпускников на 0.804.
Маркерные коэффициенты для ранга имеют несколько необычное объяснение. Например, поступив в аспирантуру с рангом 2, против организации с рангом 1, шансы на подтверждение журнала изменяются на – 0.675.
Под таблицей коэффициентов находятся списки соответствия, включающие недействительные и аномальные остатки и АПК. Позже мы покажем пример того, как вы можете использовать эти качества, чтобы помочь исследовательской модели подгонки.