Категорические переменные представляют собой разновидности данных, которые можно разделить на группы. Образцами категориальных переменных являются раса, пол, возрастная группа и академический уровень. Хотя последние две переменные также могут быть рассмотрены в численном выражении с использованием точных значений для возраста и высшей оценки, часто более информативным является разделение таких переменных на сравнительно небольшое число групп.

Анализ категориальных данных, как правило, предполагает использование таблиц знаний. Двухсторонняя таблица представляет категориальные данные путем подсчета количества наблюдений, относящихся к каждой группе, для 2 переменных, одна из которых разделена на строки, а другая, следовательно, разделена на столбцы. Например, предположим, что был проведен опрос 20 человек, которым было предложено увидеть их волосы и цвет глаз. Двухсторонняя таблица, представляющая результаты, может выглядеть следующим образом:

Цвет глаз

Цвет волос синий зеленый коричневый черный Всего

—————————————————–

Блондинка 2 1 2 1 6

Красный 1 1 2 0 4

коричневый 1 0 4 2 7

Черный 1 0 2 0 3

—————————————————–

Всего 5 2 10 3 20

Суммарные показатели по каждой категории, также называемые маргинальными распределениями, дают количество людей в каждой строке или столбце без учета эффекта противоположной переменной (в приведенном выше примере общее количество людей с голубыми глазами, независимо от цвета волос, составляет 5).

Поскольку простые подсчеты часто трудно исследовать, двусторонние таблицы часто конвертируются в проценты. В приведенном выше примере 4 человека с рыжими волосами. Поскольку было проведено 20 наблюдений, это говорит о том, что 20% обследованных лиц рыжеволосые. Можно также исследовать вероятность того, что в пределах данной категории – из 4 рыжих, 2 (50%) имеют карие глаза, 1 (25%) – голубые глаза, и 1 (25%) – зеленые глаза.

Для более подробного примера рассмотрим следующий набор данных: “Вес олимпийской команды США 1996 г.”. В первичном столбце указано имя гребца, во втором – его соревнование, и, следовательно, в третьем – его вес. Всего с весом, приведенным в виде числовых данных, существует 8 различных категорий соревнований.

Auth LW_double_sculls 154 Klepacki четыре 205

Beasley single_sculls 224 Koven восемь 200

Коричневая восьмерка 214 Мюллер квадрат 215

Бремя восемь 195 Мерфи восемь 220

Carlucci LW_four 160 Murray четыре 205

Коллинз,D LW_four 155 Питерсон,M пара 210

Коллинз, П-8 195 Питерсон, С. Л. Двухкратные черепахи 160

Гейлс квад 205 Пфаендтнер LW_four 160

Четвертый зал 195 Шнидер LW_four 158

Голландская пара 195 Скотт четыре 208

Хонебейн 8 200 Коксвейн Сегалофф 121

Джеймисон квад 210 Смит восемь 207

Келер восемь 210 Молодой квадроцикл 207

Источник данных: Биографии членов команды на сайте NBC Olympic. Датасет доступен через Архив данных JSE.

Перед созданием двусторонней таблицы событий и весов аналитик должен сначала разделить столбец с числовым “весом” на группы, создав категориальную переменную. С помощью команды MINITAB “ОПИСАНИЕ” выдается последующая информация о загрузке данных:

Описательная статистика

Переменная N Среднее Среднее Tr Среднее StDev SE Среднее

Вес 26 191.85 202.50 193.46 26.27 5.15

Переменная Мин Макс Q1 Q3

Вес 121.00 224.00 160.00 210.00

Можно выбрать, поддерживая эту информацию, разделить значения нагрузки на 4 группы, например, менее 150 фунтов, 150-175 фунтов, 175-200 фунтов и более 200 фунтов. После разделения информации по категориям (команда MINITAB “CODE” также может не выполнять эту функцию), команда MINITAB “TABLE” создаст двустороннюю таблицу следующим образом:

Строки: Столбцы событий: Вес_Класс

200 Все

LW_doubl 0 2 0 0 2

single_s 0 0 0 1 1

8 0 0 4 4 8

LW_four 0 4 0 0 4

квадрат 0 0 4 4

4 0 0 1 3 4

пара 0 0 1 1 2

коксвейн 1 0 0 1

Все 1 6 6 13 26

Используя подкоманду “ROWPERCENT”, воспроизводит эту таблицу с коэффициентами гребцов в каждой весовой категории по каждому событию:

ряды: Столбцы событий: Вес_класс

0 1 2 3 Все

LW_doubl — 100.00 — — 100.00

single_s — — — — 100.00 100.00

восемь — — — 50.00 50.00 100.00

LW_four — — 100.00 — — — 100.00

квадрат — — — — 100.00 100.00

четыре — — — 25.00 75.00 100.00

пара — — — 50.00 50.00 100.00

Коксвейн 100.00 — — — — 100.00

Все 3.85 23.08 23.08 50.00 100.00

Эти результаты показывают, что половина гребцов находится в верхней весовой категории, а остальные равномерно распределены между 2 средними классами (за исключением Коксвейна, который является единственным членом команды в самой легкой весовой группе). Аналогичным образом, подкоманда “КОЛПЕРЦЕНТ” обеспечивает долю гребцов в каждой весовой категории соревнований по весу.